מהדר C לתוך משקולות טרנספורמר — ופתאום הכל נראה אחרת

יום שני, 16 במרץ 2026

אנדריי קרפטי מהדר C לתוך משקולות טרנספורמר — ופתאום הכל נראה אחרת

נושאים

מהדר C למשקולות LLM + attention לוגריתמי — מחשב שלם בתוך טרנספורמר SGD כ-ResNet, attention כ-residual — 'אולי לא לוקחים את Attention Is All You Need מספיק ברצינות'autoresearch loop — קרפטי משתמש ב-obsidian + markdown לאוטומציה של מחקר כלי ויזואליזציית BLS — 'פרויקט שבת בוקר של שעתיים, אנשים שמים לי מילים בפה'

קרפטי היום בחמישה ציוצים — אבל אחד מהם הוא פצצה. הוא מגיב למחקר שבנה מהדר C שממיר תוכניות ישירות למשקולות טרנספורמר, עם מנגנון attention לוגריתמי חדש שמאפשר לרוץ מיליוני צעדים בשניות: 'Wait this is so awesome!! Both 1) the C compiler to LLM weights and 2) the logarithmic complexity hard-max attention and its potential generalizations.

Inspiring!' — 291 לייקים. מה הגדול פה? מישהו בנה מחשב שלם בתוך טרנספורמר.

לא מטאפורה — מחשב אמיתי שפותר סודוקו ב-100% דיוק. ואז — הציוץ התיאורטי: 'SGD זה ResNet גם כן, residual stream הוא המשקולות, אז... אולי לא לוקחים את Attention Is All You Need מספיק ברצינות?' — 209 לייקים עם emoji חושב.

קרפטי מרמז על אחידות עמוקה בין אופטימיזציה, ארכיטקטורה ולמידה. ובמקביל — חשיפה שקטה: הוא משתמש ב-autoresearch loop שמזין רעיונות ממאמרים לחקירה אוטומטית. קרפטי לא רק קורא מאמרים — הוא בנה pipeline שקורא בשבילו.

📌 הפוסט המומלץ

קרפטי על מהדר C לתוך טרנספורמר

Wait this is so awesome!! Both 1) the C compiler to LLM weights and 2) the logarithmic complexity hard-max attention and its potential generalizations. Inspiring!

רגע זה כל כך מדהים!! גם 1) מהדר C למשקולות LLM וגם 2) attention לוגריתמי עם hard-max וההכללות הפוטנציאליות שלו. מעורר השראה!

לפוסט המקורי ↗

💡

תובנה

כשמישהו בונה מחשב שלם בתוך טרנספורמר — זה לא עוד מאמר אקדמי, זה הוכחה שהארכיטקטורה הזו עמוקה יותר ממה שחשבנו.

כל הכתבות ←