Llama=אמריקניזם, Qwen=CCP — מפת ה-DNA הפוליטי של מודלים

יום שבת, ט"ז בניסן תשפ"ו

אנתרופיק Llama=אמריקניזם, Qwen=CCP — מפת ה-DNA הפוליטי של מודלים

נושאים

Anthropic Fellows פיתחו 'model diffing': כמו diff בקוד, אבל על מוחות — רק features ייחודיות לכל מודל נבדקות, לא הכל השוואת Qwen של Alibaba לעומת Llama של Meta: Qwen נושא feature של 'CCP alignment' ייחודי לו, Llama נושא 'אמריקניזם' ייחודי לו המגבלה: השיטה עלולה לסמן כ'ייחודי' features שהם בעצם analogous — אבל מוגדרים שונה בין מודלים

Anthropic Fellows מיפו 'diff' בין מודלים פתוחים: במקום לבדוק הכל, רק מה שנוסף. Qwen נושא feature של 'CCP alignment' שאין ב-Llama — ו-Llama נושא 'אמריקניזם' שאין ב-Qwen. עבור ארגונים שמשלבים מודלים בפרודקשן, זו שיטת audit שהופכת את ה-bias הגיאופוליטי למדיד.

הקשר לאתמול: לאחר ממצאי הרגשות של קלוד, אנתרופיק בונה toolbox שלם ל-interpretability.

📌 הפוסט המומלץ

אנתרופיק מציגה את ממצאי model diffing: Qwen מול Llama

For example, when we compared Alibaba's Qwen to Meta's Llama, we found a "CCP alignment" feature unique to Qwen and an "American exceptionalism" feature unique to Llama.

לדוגמה, כשהשווינו את Qwen של Alibaba ל-Llama של Meta, מצאנו feature של 'CCP alignment' ייחודי ל-Qwen, ו-feature של 'אמריקניזם' ייחודי ל-Llama.

לפוסט המקורי ↗

💡

תובנה

כל מודל הוא ביוגרפיה של מי שבנה אותו — עכשיו יש כלי לקרוא אותה.

כל הכתבות ←