Stanford: מודלי frontier חדשים מכשילים לחלוטין בהזיות — לא נפתר

יום שבת, ט"ז בניסן תשפ"ו

גארי מרקוס Stanford: מודלי frontier חדשים מכשילים לחלוטין בהזיות — לא נפתר

נושאים

מחקר מ-Stanford: מודלי frontier חדשים 'מכשילים לחלוטין' בtest hallucinations — לא שיפור לאורך הזמן מרקוס: 'האם אפשר לסמוך על output של LLMs?' — שאלה ישירה שנשארת ללא תשובה חיובית דוגמה לאיש: הלוצינציה שמרקוס הדגים מוקדם יותר הגיעה עם search פעיל — לא כשל של אי-חיפוש

מרקוס מצטט מחקר Stanford שמוכיח: מודלי frontier חדשים כושלים כשלון מוחלט (completely fail) בtest hallucinations — ולא רק מודלים ישנים. זה מנגד ישירות ל-model diffing של אנתרופיק (גיליון היום): interpretability יכולה לזהות features, אבל לא לפתור reliability. הדוגמה שמרקוס מדגים היום הגיעה עם search פעיל — מה שמוכיח שה-בעיה עמוקה יותר ממחסור בגישה למידע.

📌 הפוסט המומלץ

מרקוס מצטט מחקר Stanford על hallucinations במודלי frontier

Folks, I gave a cute example of a hallucination earlier today because I thought it was funny. But if you think hallucinations are remotely solved (as some people alleged in the comments), you really need to look at this recent Stanford study, in which recent models *completely fail*

חברים, הדגמתי דוגמה חמודה להלוצינציה היום כי חשבתי שזה מצחיק. אבל אם אתם חושבים שהלוצינציות נפתרו בערך (כפי שכמה טענו בתגובות), באמת צריך לקרוא את מחקר Stanford החדש הזה, שבו מודלים חדשים *כושלים לחלוטין*

לפוסט המקורי ↗

💡

תובנה

אנחנו בונים מגדל מעל סדקים ידועים — ועוצרים להגדיר את מבנה הסדקים.

כל הכתבות ←