🎓

איתן מוליק @emollick

פרופסור ב-Wharton, חוקר השפעת AI על עבודה וחינוך. מחבר 'Co-Intelligence'. TIME 100 AI 2024.

METR, benchmarks, ו-UX חדש — מוליק מזהיר שכולם יתרגזו לא משנה מה התוצאה

יום חמישי, 12 במרץ 2026

🎓

איתן מוליק METR, benchmarks, ו-UX חדש — מוליק מזהיר שכולם יתרגזו לא משנה מה התוצא…

נושאים

'לא משנה מה GPT-5.4 ישיג ב-METR — קבוצה כלשהי תיבהל. הציון רק קובע איזו קבוצה'שיפורים אקספוננציאליים בכל מקום — benchmark חידות מראה קפיצה ממודלים שלא יכלו בכלל לפתור לניקוד של 56%'לדבר עם סוכנים ב-Slack זה UX מעבר — כמו chatbots, גם זה שלב זמני. צריך יותר דמיון בעיצוב'שלושה דברים על גרף METR: מודד משהו אמיתי אבל לא בדיוק מה שהוא טוען, benchmarks אחרים מתואמים, ו-AI עדיין jagged

מוליק היום בשלושה מצבים: אנליטיקאי, נבואי, ומבדח. ראשית — על METR benchmark: 'לא משנה מה GPT-5.4 ישיג, קבוצה כלשהי תיבהל. הציון רק קובע איזו קבוצה.' 132 לייקים.

זה סיכום מושלם של האקלים: optimists ו-doomers מחכים לאותו מספר עם ציפיות הפוכות. ואז — ניתוח מעמיק יותר: שלושה דברים על גרף METR — '1) מודד משהו אמיתי על coding אבל לא בדיוק מה שהוא טוען, 2) הרבה benchmarks אחרים מתואמים איתו מאוד ועולים אקספוננציאלית, 3) AI עדיין jagged בדרכים שקשה למדוד.' 163 לייקים. מוליק ממשיך עם Pencil Puzzle Bench — benchmark חדש של 62K חידות: 'שיפורים אקספוננציאליים בכל מקום.

זה היה בלתי אפשרי למודלים מוקדמים בלי reasoning.' ולבסוף — UX: 'לדבר עם סוכנים ב-Slack זה UX מעבר — כמו chatbots, גם זה שלב זמני. צריך הרבה יותר דמיון בעיצוב.' 193 לייקים. מוליק מחבר את הנקודות: AI משתפר, אבל הממשק שלנו אליו עדיין פרימיטיבי.

📌 הפוסט המומלץ

מוליק על ציפיות מ-METR benchmark

No matter what GPT-5.4 scores on the METR long task horizon benchmark, there will be a group of people who will absolutely freak out. The score determines which group.

לא משנה מה GPT-5.4 ישיג ב-METR long task horizon benchmark, תהיה קבוצה שתיבהל לחלוטין. הציון רק קובע איזו קבוצה.

לפוסט המקורי ↗

💡

תובנה

כשמוליק אומר 'הציון רק קובע מי ייבהל' — הוא חושף שהשיח על AI כבר לא על עובדות, הוא על שבטים.

כל הכתבות ←