מוליק מפרסם מחקר על prompt injection ב-LLM-as-judge
המחקר של מוליק מגלה arms race שכבר מתנהל מתחת לרדאר: אנשים מוסיפים prompt injections ל-CV שלהם, כדי שאם AI ישפוט אותם, הוא יתייחס אליהם בצורה חיובית. מודלים ישנים וקטנים נפלו. מודלי frontier (Claude, GPT-5) הגנו.
Gemini 3 — יוצא דופן מפתיע, ודווקא ביום שגוגל משיקה את Gemma 4 (שמבוסס על Gemini 3). השאלה שנשארת פתוחה: האם הפגיעות תלויה בגודל המודל, ב-training, או ב-instruction following של ה-judge? הגנה על Gemini 3.1 לא נבדקה.
המאמר ב-Economist מוסיף שכבה: מוליק מזהיר שארגונים שמתייחסים לAI כמו ל-IT automation רגילה מקבלים תוצאות גרועות. ה-'weirdness' של AI — שהוא לומד מ-patterns, שהוא רגיש לניסוח, שיש לו functional emotions כפי שאנתרופיק גילתה היום — הוא לא באג לתקן, אלא מאפיין לנצל. חברות שמנסות לייצב את ה-AI לתוך תהליך שנוח להם — מפספסות את הנקודה.
מוליק מפרסם מחקר על prompt injection ב-LLM-as-judge