קרפתי על AutoResearch vs NAS — לא אותה ליגה
קרפתי היום בשני מצבים. הראשון — עריכה ותגובות על AutoResearch שממשיך לרוץ. כשמישהו טוען 'זה רק hyper parameter tuning חדש', קרפתי חותך: 'בענף אחד של חקירה אתמול, סוכן שם לב ששינוי הסדר בין QK Norm ל-RoPE משפר ביצועים.
איזה hyperparameter זה?' 248 לייקים. הנקודה ברורה: AutoResearch לא מחפש בגריד — הוא כותב קוד שרירותי, לומד מניסויים קודמים, וניגש לאינטרנט. 'NAS כמו שהיה אז הוא כזה weak לעומת שזה בקטגוריה נפרדת לגמרי.' 466 לייקים.
הציוץ השני — RT של ניסיון בשטח ל-post-training מודל 1T MoE עם תשתית קוד פתוח. 'Off in the jungle with no trails' — open weights לא אומר open source, לא רק בגלל הדאטה אלא בגלל כל התשתית שנדרשת לאימון. 156 לייקים.
זה ממשיך ישירות את הציוץ של אתמול על transfer של שיפורים מ-depth 12 ל-depth 24.
קרפתי על AutoResearch vs NAS — לא אותה ליגה