הפוסט שמחזיק את מרכז הכובד של הסיפור הזה אצל @jeffdean
It's been a delight to provide small amounts of advice and suggestions to people working on the Decoupled DiLoCo training system. This approach enables graceful handling of failures in large scale training jobs, by allowing (N-1) / N units to proceed when one fails.
Jeff Dean חושפת את Decoupled DiLoCo: שיטה עמידה וגמישה לאימון מודלים מתקדמים בין דאטה סנטרים. המערכת מאפשרת להמשיך באימון גם כשיחידה אחת נכשלת.
לפוסט המקורי ↗



