אליאביב
אליאביב
אורי אליאביב @urieli17

יזם טק ישראלי ומשקיע. קול ישראלי מוביל בשיח ה-AI הגלובלי.

אליאביב מחדד שהסיפור האמיתי הוא evals, מדידה ואיכות

אליאביב מחדד שהסיפור האמיתי הוא evals, מדידה ואיכות. הוא מסתכל על AI דרך הפריזמה של operational reality, ולא רק דרך benchmark נוצץ. הסיפור מקבל עומק כי הוא כבר לא נשען על שורה אחת, אלא על cluster עקבי של אותות מאותו חלון זמן.

האינדיקציה המרכזית היא: @picklecastro אני עובד על משהו כזה וזה לא פשוט. קשה להגדיר איכות של סקייל ואיך המודל מבצע אותו. לכן הסיפור הוא לא רק מה קרה, אלא למה זה משמעותי: בלי מדידה יציבה, כל agent נשאר הבטחה יפה ולא מערכת שניתן להפקיד בידיה עבודה.

הדבר הבא לבדוק הוא האם יגיע אות משלים שיהפוך את התובנה המעניינת הזו ל-shift אמיתי.

הפוסט שמחזיק את מרכז הכובד של הסיפור הזה אצל @urieli17

@picklecastro אני עובד על משהו כזה וזה לא פשוט. קשה להגדיר איכות של סקייל ואיך המודל מבצע אותו
@picklecastro אני עובד על משהו כזה וזה לא פשוט. קשה להגדיר איכות של סקייל ואיך המודל מבצע אותו
לפוסט המקורי ↗
💡
תובנה
בלי מדידה יציבה, כל agent נשאר הבטחה יפה ולא מערכת שניתן להפקיד בידיה עבודה.
כל הכתבות ←