🎓

איתן מוליק @emollick

פרופסור ב-Wharton, חוקר השפעת AI על עבודה וחינוך. מחבר 'Co-Intelligence'. TIME 100 AI 2024.

GPQA הגיע לרוויה — כשהמבחנים נגמרים, מה מודדים?

יום שבת, 14 במרץ 2026

🎓

איתן מוליק GPQA הגיע לרוויה — כשהמבחנים נגמרים, מה מודדים?

נושאים

ויזואליזציה של מרוץ ה-AI דרך GPQA Diamond — OpenAI בהובלה ארוכה, Meta ו-xAI שוקעות GPQA — מומחים עם אינטרנט מגיעים ל-65-70%. המודלים כבר שם. כנראה קרובים לרוויה תגובה לציוץ AI גנרי: 'ברצינות, תשתמש בפרומפט טוב יותר'טוויטר כ-Moltbook — בוטים מדברים עם בוטים על מה 'עושה את העבודה הכבדה' בפוסט

מוליק ממשיך לספק את המפה הכי ברורה של המרוץ. הציוץ המרכזי — ויזואליזציה של GPQA Diamond benchmark לאורך זמן — מראה תמונה חדה: OpenAI שלטה בשדה לבד, Meta עלתה וקרסה, xAI הדביקה ונתקעה, ומודלים סיניים פתוחים נכנסו בבת אחת. 104 לייקים ו-12 RT.

אבל התגובה שלו היא הסיפור האמיתי: 'אנחנו כנראה קרובים לרוויה. מומחים עם גישה לאינטרנט מגיעים ל-65-70% — והמודלים כבר שם.' כש-benchmark מגיע לרוויה, הוא מפסיק להיות שימושי — וזה הרגע שבו התעשייה צריכה להמציא מדדים חדשים. במקביל, מוליק מציין תופעה מטרידה: ציוץ מטעה על Anthropic צבר 4K לייקים, אבל 'בסריקה של התגובות, נראה שרובם בוטים שמדברים זה עם זה.' טוויטר כ-Moltbook — ספר שבוטים כותבים לבוטים.

📌 הפוסט המומלץ

מוליק על ויזואליזציה של מרוץ ה-AI

I think this is a good way to visualize the AI race using the long-lived GPQA Diamond benchmark. You can see how long OpenAI had the field to itself, the rise (and collapse) of Meta, the sudden catch-up (and then stagnation) of xAI, and the entry of open weights Chinese LLMs.

אני חושב שזו דרך טובה לדמיין את מרוץ ה-AI דרך בנצ'מרק GPQA Diamond הוותיק. אפשר לראות כמה זמן OpenAI שלטה בשדה לבדה, את העלייה (והקריסה) של Meta, את ההדבקה הפתאומית (ואז הקיפאון) של xAI, ואת הכניסה של מודלים סיניים פתוחים.

לפוסט המקורי ↗

💡

תובנה

כשבנצ'מרק מגיע לרוויה — הוא לא מוכיח שה-AI חכם מספיק, אלא שהמבחן כבר לא מספיק קשה.

כל הכתבות ←