קרפטי על מהדר C לתוך טרנספורמר
קרפטי היום בחמישה ציוצים — אבל אחד מהם הוא פצצה. הוא מגיב למחקר שבנה מהדר C שממיר תוכניות ישירות למשקולות טרנספורמר, עם מנגנון attention לוגריתמי חדש שמאפשר לרוץ מיליוני צעדים בשניות: 'Wait this is so awesome!! Both 1) the C compiler to LLM weights and 2) the logarithmic complexity hard-max attention and its potential generalizations.
Inspiring!' — 291 לייקים. מה הגדול פה? מישהו בנה מחשב שלם בתוך טרנספורמר.
לא מטאפורה — מחשב אמיתי שפותר סודוקו ב-100% דיוק. ואז — הציוץ התיאורטי: 'SGD זה ResNet גם כן, residual stream הוא המשקולות, אז... אולי לא לוקחים את Attention Is All You Need מספיק ברצינות?' — 209 לייקים עם emoji חושב.
קרפטי מרמז על אחידות עמוקה בין אופטימיזציה, ארכיטקטורה ולמידה. ובמקביל — חשיפה שקטה: הוא משתמש ב-autoresearch loop שמזין רעיונות ממאמרים לחקירה אוטומטית. קרפטי לא רק קורא מאמרים — הוא בנה pipeline שקורא בשבילו.
קרפטי על מהדר C לתוך טרנספורמר