🧠
אנדריי קרפאתי @karpathy

מייסד Eureka Labs, לשעבר מנהל AI ב-Tesla ומייסד-שותף OpenAI. PhD מסטנפורד.

שיפורי AutoResearch עוברים מ-depth 12 ל-24 — והסאונה מתבררת כמעבדה

קרפתי מרכיב היום ארבע חתיכות שמציירות תמונה שלמה. החתיכה הגדולה: 650 ניסויים אוטומטיים שAutoResearch הריץ על מודל depth 12 — מעבירים את עצמם בצורה חלקה ל-depth 24. 'nanochat עומד לקבל entry חדש ב-leaderboard של time-to-GPT-2', הוא כותב לטובי לוטקה.

3,236 לייקים. זה לא טריוויאלי — transfer של היפרפרמטרים בין ארכיטקטורות הוא בדיוק מה שחוקרים חולמים עליו. במקביל, מישהו העביר את הכל ל-macOS עם MLX ואימן מודל 20M פרמטרים על TinyStories — 'Once upon a time, there was a big family who was very nice to the table.' קרפתי מאשר: 'TinyStories הוא הדבר הנכון לאמן על Apple Silicon.' ואז שני ציוצים פילוסופיים: האחד על ברוט-פורס — 'איפשהו במרחב ה-seed יש ה-global minimum.

נרמל guess-and-check training!' חצי בדיחה, חצי הארה על מה שAutoResearch בעצם עושה. והשני, על ממשקים: 'כל עסק עדיין נותן לך הוראות איפה ללחוץ. If you build it, they will come.' 1,810 לייקים — רמז ברור שסוכנים הולכים לבלוע את כל ה-legacy UI.

קרפתי לטובי לוטקה על AutoResearch

Who knew early singularity could be this fun? :) I just confirmed that the improvements autoresearch found over the last 2 days of (~650) experiments on depth 12 model transfer well to depth 24 so nanochat is about to get a new leaderboard entry for "time to GPT-2" too. Works 🤷‍♂️
מי ידע שסינגולריות מוקדמת יכולה להיות כזה כיף? :) רק אישרתי שהשיפורים ש-AutoResearch מצא ב-2 הימים האחרונים (~650 ניסויים) על מודל depth 12 מעבירים עצמם היטב ל-depth 24, אז nanochat עומד לקבל entry חדש ב-leaderboard של 'time to GPT-2' גם כן. עובד 🤷‍♂️
לפוסט המקורי ↗
💡
תובנה
כש-650 ניסויים אוטומטיים על ארכיטקטורה קטנה מעבירים את עצמם לארכיטקטורה גדולה — AutoResearch לא רק מאמן, הוא מגלה חוקים.
כל הכתבות ←