הפוסט המרכזי שמייצג את הסיפור אצל @Scale_AI
Frontier agents: 75–89% on fully-specified tasks. Same tasks with realistic gaps + an ask_human() tool they're told to use? 4–24%.
Scale AI מציגה התפתחות חדשה בפרדיגמת מחקר ולמידה. Frontier agents: 75–89% במשימות מוגדרות במלואן. אותן משימות עם פערים ריאליסטיים וכלי ask_human() לשימוש? 4–24%.
לפוסט המקורי ↗

