מוליק על ויזואליזציה של מרוץ ה-AI
מוליק ממשיך לספק את המפה הכי ברורה של המרוץ. הציוץ המרכזי — ויזואליזציה של GPQA Diamond benchmark לאורך זמן — מראה תמונה חדה: OpenAI שלטה בשדה לבד, Meta עלתה וקרסה, xAI הדביקה ונתקעה, ומודלים סיניים פתוחים נכנסו בבת אחת. 104 לייקים ו-12 RT.
אבל התגובה שלו היא הסיפור האמיתי: 'אנחנו כנראה קרובים לרוויה. מומחים עם גישה לאינטרנט מגיעים ל-65-70% — והמודלים כבר שם.' כש-benchmark מגיע לרוויה, הוא מפסיק להיות שימושי — וזה הרגע שבו התעשייה צריכה להמציא מדדים חדשים. במקביל, מוליק מציין תופעה מטרידה: ציוץ מטעה על Anthropic צבר 4K לייקים, אבל 'בסריקה של התגובות, נראה שרובם בוטים שמדברים זה עם זה.' טוויטר כ-Moltbook — ספר שבוטים כותבים לבוטים.
מוליק על ויזואליזציה של מרוץ ה-AI