סיימון וויליסון
סיימון וויליסון
סיימון וויליסון @simonw

יוצר Django. בוחן כל מודל AI חדש ומפרסם ממצאים פרקטיים — הכי אינפורמטיבי ב-X.

Claude Code מגלה jailbreaks חדשים אוטומטית — והמסקנה מפתיעה

מחקר חדש הפעיל Claude Code בלולאת מחקר אוטומטית כדי לגלות אלגוריתמי jailbreaking חדשים — וזה עבד. המערכת מצאה התקפות שמכות יותר מ-30 שיטות קיימות. אבל וויליסון, בסגנונו, מפנה את התובנה הפוכה: זה בעיקר מוכיח שמניעה מוחלטת של jailbreaking היא חסרת תוחלת.

העצה שלו ללקוח ייעוץ: "תניחו שלא תוכלו לעצור כל התקפה, ותתמקדו בהנדסה של מה שקורה כשהתקפה כן עוברת." הגנה לעומק, לא חומה בלתי חדירה.

וויליסון על חוסר התוחלת של מניעת jailbreaking

To me this mostly illustrates the futility of robust jailbreaking prevention
מבחינתי, זה בעיקר ממחיש את חוסר התוחלת של מניעה חזקה של jailbreaking
לפוסט המקורי ↗
💡
תובנה
אם AI יודע לפרוץ AI — אולי הגנה טובה היא לא חומה גבוהה יותר, אלא רצפה רכה יותר.
כל הכתבות ←