מרקוס ווילסון מ-OpenAI על ניטור קוד פנימי
Sharing some of the work I've been doing at OpenAI: we now monitor 99.9% of internal coding traffic for misalignment using our most powerful models, reviewing full trajectories to catch suspicious behavior, escalate serious cases quickly, and strengthen our safeguards over time.
משתף חלק מהעבודה שאני עושה ב-OpenAI: אנחנו עוקבים אחרי 99.9% מתעבורת הקוד הפנימי לאיתור misalignment באמצעות המודלים החזקים ביותר שלנו, סוקרים מסלולים שלמים כדי לתפוס התנהגות חשודה, להסלים מקרים רציניים מהר, ולחזק את ההגנות שלנו לאורך זמן.
לפוסט המקורי ↗



