שטיינברגר
שטיינברגר
פיטר שטיינברגר @steipete

מייסד PSPDFKit ו-Emerge Tools. קול מוביל בקהילת ה-developer על AI וכלי פיתוח.

שטיינברגר מחדד שהסיפור האמיתי הוא evals, מדידה ואיכות

שטיינברגר מדגיש כי המדידה וה-evals הן הליבה של ההתקדמות בתחום. הדוגמה הקונקרטית היא עבודה על character evals שבהם Claude בחר בעצמו כמודל הטוב ביותר, מה שהוביל להסרת שמות המודלים מהשופט ולשינויים נוספים. משמעות הדבר היא שבלי מדידה יציבה ואמינה, כל סוכן (agent) נשאר רק הבטחה ולא מערכת אמינה שניתן להפקיד בידיה משימות אמיתיות.

הפוסט שמחזיק את מרכז הכובד של הסיפור הזה אצל @steipete

I'm working on character evals and noticed that Claude would constantly pick itself as #1, so I removed the model names from the judge and changed things. https://t.co/Y9SqqJSYRc
שטיינברגר מחדד שהסיפור האמיתי הוא evals, מדידה ואיכות. העוגן הקונקרטי כאן הוא: I'm working on character evals and noticed that Claude would constantly pick itself as #1, so I removed the model names from the judge….
לפוסט המקורי ↗
💡
תובנה
ללא מדידה יציבה, כל סוכן נשאר הבטחה יפה ולא מערכת שניתן להפקיד בה עבודה.
כל הכתבות ←