99.9% מהקוד הפנימי נסרק לאיתור התנהגות חשודה — OpenAI מפקחת על עצמה

יום שישי, 20 במרץ 2026

OpenAI 99.9% מהקוד הפנימי נסרק לאיתור התנהגות חשודה — OpenAI מפקחת על עצמה

נושאים

OpenAI עוקבת אחרי 99.9% מתעבורת הקוד הפנימי לאיתור misalignment

OpenAI עושה RT למרקוס ווילסון מצוות הבטיחות: 'אנחנו עוקבים אחרי 99.9% מתעבורת הקוד הפנימי לאיתור misalignment, באמצעות המודלים החזקים ביותר שלנו. סוקרים מסלולים שלמים כדי לתפוס התנהגות חשודה, להסלים מקרים רציניים מהר, ולחזק את ההגנות שלנו לאורך זמן.' — 45 RT. זה מעניין בכמה רמות: OpenAI משתמשת ב-AI כדי לפקח על AI.

המודלים החזקים ביותר שלהם סוקרים את הקוד שנכתב בעזרת מודלים אחרים. ו-99.9% זה מספר שמעלה שאלה: מה קורה ב-0.1% שלא נסרק? בכל מקרה, זו תשתית alignment פנימית שרוב המעבדות לא חושפות — ו-OpenAI בוחרת לדבר על זה פומבית.

📌 הפוסט המומלץ

מרקוס ווילסון מ-OpenAI על ניטור קוד פנימי

Sharing some of the work I've been doing at OpenAI: we now monitor 99.9% of internal coding traffic for misalignment using our most powerful models, reviewing full trajectories to catch suspicious behavior, escalate serious cases quickly, and strengthen our safeguards over time.

משתף חלק מהעבודה שאני עושה ב-OpenAI: אנחנו עוקבים אחרי 99.9% מתעבורת הקוד הפנימי לאיתור misalignment באמצעות המודלים החזקים ביותר שלנו, סוקרים מסלולים שלמים כדי לתפוס התנהגות חשודה, להסלים מקרים רציניים מהר, ולחזק את ההגנות שלנו לאורך זמן.

לפוסט המקורי ↗

💡

תובנה

כש-OpenAI מפקחת על 99.9% מהקוד שלה עם AI — השאלה היא לא אם זה עובד, אלא מי מפקח על המפקח.

כל הכתבות ←