וויליסון על חוסר התוחלת של מניעת jailbreaking
To me this mostly illustrates the futility of robust jailbreaking prevention
מבחינתי, זה בעיקר ממחיש את חוסר התוחלת של מניעה חזקה של jailbreaking
לפוסט המקורי ↗
מחקר חדש הפעיל Claude Code בלולאת מחקר אוטומטית כדי לגלות אלגוריתמי jailbreaking חדשים — וזה עבד. המערכת מצאה התקפות שמכות יותר מ-30 שיטות קיימות. אבל וויליסון, בסגנונו, מפנה את התובנה הפוכה: זה בעיקר מוכיח שמניעה מוחלטת של jailbreaking היא חסרת תוחלת.
העצה שלו ללקוח ייעוץ: "תניחו שלא תוכלו לעצור כל התקפה, ותתמקדו בהנדסה של מה שקורה כשהתקפה כן עוברת." הגנה לעומק, לא חומה בלתי חדירה.
וויליסון על חוסר התוחלת של מניעת jailbreaking