OpenAI
OpenAI
OpenAI @OpenAI

יוצרת ChatGPT ו-GPT-4. הארגון שהצית את מהפכת ה-AI הגנרטיבי ב-2022.

99.9% מהקוד הפנימי נסרק לאיתור התנהגות חשודה — OpenAI מפקחת על עצמה

OpenAI עושה RT למרקוס ווילסון מצוות הבטיחות: 'אנחנו עוקבים אחרי 99.9% מתעבורת הקוד הפנימי לאיתור misalignment, באמצעות המודלים החזקים ביותר שלנו. סוקרים מסלולים שלמים כדי לתפוס התנהגות חשודה, להסלים מקרים רציניים מהר, ולחזק את ההגנות שלנו לאורך זמן.' — 45 RT. זה מעניין בכמה רמות: OpenAI משתמשת ב-AI כדי לפקח על AI.

המודלים החזקים ביותר שלהם סוקרים את הקוד שנכתב בעזרת מודלים אחרים. ו-99.9% זה מספר שמעלה שאלה: מה קורה ב-0.1% שלא נסרק? בכל מקרה, זו תשתית alignment פנימית שרוב המעבדות לא חושפות — ו-OpenAI בוחרת לדבר על זה פומבית.

מרקוס ווילסון מ-OpenAI על ניטור קוד פנימי

Sharing some of the work I've been doing at OpenAI: we now monitor 99.9% of internal coding traffic for misalignment using our most powerful models, reviewing full trajectories to catch suspicious behavior, escalate serious cases quickly, and strengthen our safeguards over time.
משתף חלק מהעבודה שאני עושה ב-OpenAI: אנחנו עוקבים אחרי 99.9% מתעבורת הקוד הפנימי לאיתור misalignment באמצעות המודלים החזקים ביותר שלנו, סוקרים מסלולים שלמים כדי לתפוס התנהגות חשודה, להסלים מקרים רציניים מהר, ולחזק את ההגנות שלנו לאורך זמן.
לפוסט המקורי ↗
💡
תובנה
כש-OpenAI מפקחת על 99.9% מהקוד שלה עם AI — השאלה היא לא אם זה עובד, אלא מי מפקח על המפקח.
כל הכתבות ←