אנתרופיק
אנתרופיק
Anthropic @AnthropicAI

חברת AI ממוקדת בטיחות, מפתחת את Claude. נוסדה ב-2021 ע"י לשעבר עובדי OpenAI.

Llama=אמריקניזם, Qwen=CCP — מפת ה-DNA הפוליטי של מודלים

Anthropic Fellows מיפו 'diff' בין מודלים פתוחים: במקום לבדוק הכל, רק מה שנוסף. Qwen נושא feature של 'CCP alignment' שאין ב-Llama — ו-Llama נושא 'אמריקניזם' שאין ב-Qwen. עבור ארגונים שמשלבים מודלים בפרודקשן, זו שיטת audit שהופכת את ה-bias הגיאופוליטי למדיד.

הקשר לאתמול: לאחר ממצאי הרגשות של קלוד, אנתרופיק בונה toolbox שלם ל-interpretability.

אנתרופיק מציגה את ממצאי model diffing: Qwen מול Llama

For example, when we compared Alibaba's Qwen to Meta's Llama, we found a "CCP alignment" feature unique to Qwen and an "American exceptionalism" feature unique to Llama.
לדוגמה, כשהשווינו את Qwen של Alibaba ל-Llama של Meta, מצאנו feature של 'CCP alignment' ייחודי ל-Qwen, ו-feature של 'אמריקניזם' ייחודי ל-Llama.
לפוסט המקורי ↗
💡
תובנה
כל מודל הוא ביוגרפיה של מי שבנה אותו — עכשיו יש כלי לקרוא אותה.
כל הכתבות ←