מוליק על ציפיות מ-METR benchmark
מוליק היום בשלושה מצבים: אנליטיקאי, נבואי, ומבדח. ראשית — על METR benchmark: 'לא משנה מה GPT-5.4 ישיג, קבוצה כלשהי תיבהל. הציון רק קובע איזו קבוצה.' 132 לייקים.
זה סיכום מושלם של האקלים: optimists ו-doomers מחכים לאותו מספר עם ציפיות הפוכות. ואז — ניתוח מעמיק יותר: שלושה דברים על גרף METR — '1) מודד משהו אמיתי על coding אבל לא בדיוק מה שהוא טוען, 2) הרבה benchmarks אחרים מתואמים איתו מאוד ועולים אקספוננציאלית, 3) AI עדיין jagged בדרכים שקשה למדוד.' 163 לייקים. מוליק ממשיך עם Pencil Puzzle Bench — benchmark חדש של 62K חידות: 'שיפורים אקספוננציאליים בכל מקום.
זה היה בלתי אפשרי למודלים מוקדמים בלי reasoning.' ולבסוף — UX: 'לדבר עם סוכנים ב-Slack זה UX מעבר — כמו chatbots, גם זה שלב זמני. צריך הרבה יותר דמיון בעיצוב.' 193 לייקים. מוליק מחבר את הנקודות: AI משתפר, אבל הממשק שלנו אליו עדיין פרימיטיבי.
מוליק על ציפיות מ-METR benchmark