אנדריי קרפטי
אנדריי קרפטי
אנדריי קרפאתי @karpathy

מייסד Eureka Labs, לשעבר מנהל AI ב-Tesla ומייסד-שותף OpenAI. PhD מסטנפורד.

מהדר C לתוך משקולות טרנספורמר — ופתאום הכל נראה אחרת

קרפטי היום בחמישה ציוצים — אבל אחד מהם הוא פצצה. הוא מגיב למחקר שבנה מהדר C שממיר תוכניות ישירות למשקולות טרנספורמר, עם מנגנון attention לוגריתמי חדש שמאפשר לרוץ מיליוני צעדים בשניות: 'Wait this is so awesome!! Both 1) the C compiler to LLM weights and 2) the logarithmic complexity hard-max attention and its potential generalizations.

Inspiring!' — 291 לייקים. מה הגדול פה? מישהו בנה מחשב שלם בתוך טרנספורמר.

לא מטאפורה — מחשב אמיתי שפותר סודוקו ב-100% דיוק. ואז — הציוץ התיאורטי: 'SGD זה ResNet גם כן, residual stream הוא המשקולות, אז... אולי לא לוקחים את Attention Is All You Need מספיק ברצינות?' — 209 לייקים עם emoji חושב.

קרפטי מרמז על אחידות עמוקה בין אופטימיזציה, ארכיטקטורה ולמידה. ובמקביל — חשיפה שקטה: הוא משתמש ב-autoresearch loop שמזין רעיונות ממאמרים לחקירה אוטומטית. קרפטי לא רק קורא מאמרים — הוא בנה pipeline שקורא בשבילו.

קרפטי על מהדר C לתוך טרנספורמר

Wait this is so awesome!! Both 1) the C compiler to LLM weights and 2) the logarithmic complexity hard-max attention and its potential generalizations. Inspiring!
רגע זה כל כך מדהים!! גם 1) מהדר C למשקולות LLM וגם 2) attention לוגריתמי עם hard-max וההכללות הפוטנציאליות שלו. מעורר השראה!
לפוסט המקורי ↗
💡
תובנה
כשמישהו בונה מחשב שלם בתוך טרנספורמר — זה לא עוד מאמר אקדמי, זה הוכחה שהארכיטקטורה הזו עמוקה יותר ממה שחשבנו.
כל הכתבות ←