📚
אנדרו אנג @AndrewYNg

מייסד Google Brain, לשעבר ראש AI ב-Baidu. מייסד deeplearning.ai ו-Coursera.

Mercury 2 — מודל דיפוזיה שמאתגר את ההנחות על איך LLMs צריכים לעבוד

אנדרו אנג מפנה זרקור ל-Mercury 2 של Inception Labs — מודל שפה מבוסס דיפוזיה במקום הגישה האוטורגרסיבית הקלאסית. המספרים מרשימים: פי 5 מהיר ממודלים מותאמי-מהירות מובילים. זו לא סתם אופטימיזציה — זה פרדיגמה חלופית.

אם מודלי דיפוזיה הצליחו לשנות את עולם התמונות, למה לא טקסט? השאלה הפתוחה היא אם הגישה הזו תשמור על איכות בסקייל.

אנג על Mercury 2

Impressive inference speed from Inception Labs' diffusion LLMs. Diffusion LLMs are a fascinating alternative to conventional autoregressive LLMs.
מהירות הסקה מרשימה מ-LLMs מבוססי דיפוזיה של Inception Labs. מודלי שפה מבוססי דיפוזיה הם אלטרנטיבה מרתקת למודלים אוטורגרסיביים קונבנציונליים.
לפוסט המקורי ↗
💡
תובנה
דיפוזיה שינתה תמונות. עכשיו היא באה לטקסט. אם Mercury 2 מחזיק בסקייל — כל ההנחות שלנו על ארכיטקטורת LLM משתנות.
כל הכתבות ←