🎓
איתן מוליק @emollick

פרופסור ב-Wharton, חוקר השפעת AI על עבודה וחינוך. מחבר 'Co-Intelligence'. TIME 100 AI 2024.

GPQA הגיע לרוויה — כשהמבחנים נגמרים, מה מודדים?

מוליק ממשיך לספק את המפה הכי ברורה של המרוץ. הציוץ המרכזי — ויזואליזציה של GPQA Diamond benchmark לאורך זמן — מראה תמונה חדה: OpenAI שלטה בשדה לבד, Meta עלתה וקרסה, xAI הדביקה ונתקעה, ומודלים סיניים פתוחים נכנסו בבת אחת. 104 לייקים ו-12 RT.

אבל התגובה שלו היא הסיפור האמיתי: 'אנחנו כנראה קרובים לרוויה. מומחים עם גישה לאינטרנט מגיעים ל-65-70% — והמודלים כבר שם.' כש-benchmark מגיע לרוויה, הוא מפסיק להיות שימושי — וזה הרגע שבו התעשייה צריכה להמציא מדדים חדשים. במקביל, מוליק מציין תופעה מטרידה: ציוץ מטעה על Anthropic צבר 4K לייקים, אבל 'בסריקה של התגובות, נראה שרובם בוטים שמדברים זה עם זה.' טוויטר כ-Moltbook — ספר שבוטים כותבים לבוטים.

מוליק על ויזואליזציה של מרוץ ה-AI

I think this is a good way to visualize the AI race using the long-lived GPQA Diamond benchmark. You can see how long OpenAI had the field to itself, the rise (and collapse) of Meta, the sudden catch-up (and then stagnation) of xAI, and the entry of open weights Chinese LLMs.
אני חושב שזו דרך טובה לדמיין את מרוץ ה-AI דרך בנצ'מרק GPQA Diamond הוותיק. אפשר לראות כמה זמן OpenAI שלטה בשדה לבדה, את העלייה (והקריסה) של Meta, את ההדבקה הפתאומית (ואז הקיפאון) של xAI, ואת הכניסה של מודלים סיניים פתוחים.
לפוסט המקורי ↗
💡
תובנה
כשבנצ'מרק מגיע לרוויה — הוא לא מוכיח שה-AI חכם מספיק, אלא שהמבחן כבר לא מספיק קשה.
כל הכתבות ←