🌍
קלמן דלאנג @clementdelangue

מנכ"ל Hugging Face. מוביל את מהפכת ה-open source AI.

דלנגו טוען שיש כאן שבירת שוויון במדידה, לא עוד דמו

דלנגו טוען שיש כאן שבירת שוויון במדידה, לא עוד דמו. הערך כאן אינו רק בתוכן עצמו, אלא במיקומו בתוך ה-beat שהמקור בונה לאורך זמן. הסיפור מקבל עומק מכיוון שהוא כבר לא נשען על שורה אחת, אלא על cluster עקבי של אותות מאותו חלון זמן.

האינדיקציה המרכזית היא: RT @Altimor: Okay this one seems real. First time ever an OSS model beats Sonnet 4.6(!!) on our evals. Now begins vibe testing, but this is….

לכן הסיפור הוא לא רק מה קרה, אלא למה זה חשוב: אם שבירת השוויון מחזיקה גם מחוץ ל-benchmark, היא מאלצת את השוק כולו להסביר מחדש את הדרך שבה הוא מודד איכות. הדבר הבא לבדוק הוא האם יגיע אות משלים שיהפוך את התובנה המעניינת הזו ל-shift אמיתי.

הפוסט שמחזיק את מרכז הכובד של הסיפור הזה אצל @clementdelangue

RT @Altimor: Okay this one seems real. First time ever an OSS model beats Sonnet 4.6(!!) on our evals. Now begins vibe testing, but this is…
דלנגו טוען שיש כאן שבירת שוויון במדידה, לא עוד דמו. הסיפור מקבל עומק כי הוא כבר לא נשען על שורה אחת, אלא על cluster עקבי של אותות מאותו חלון זמן.
לפוסט המקורי ↗
💡
תובנה
אם שבירת השוויון מחזיקה גם מחוץ ל-benchmark, היא מאלצת את השוק כולו להסביר מחדש את הדרך שבה הוא מודד איכות.
כל הכתבות ←