הפוסט שמחזיק את מרכז הכובד של הסיפור הזה אצל @clementdelangue
RT @Altimor: Okay this one seems real. First time ever an OSS model beats Sonnet 4.6(!!) on our evals. Now begins vibe testing, but this is…
דלנגו טוען שיש כאן שבירת שוויון במדידה, לא עוד דמו. הסיפור מקבל עומק כי הוא כבר לא נשען על שורה אחת, אלא על cluster עקבי של אותות מאותו חלון זמן.
לפוסט המקורי ↗


