הפוסט שמחזיק את מרכז הכובד של הסיפור הזה אצל @steipete
I'm working on character evals and noticed that Claude would constantly pick itself as #1, so I removed the model names from the judge and changed things. https://t.co/Y9SqqJSYRc
שטיינברגר מחדד שהסיפור האמיתי הוא evals, מדידה ואיכות. העוגן הקונקרטי כאן הוא: I'm working on character evals and noticed that Claude would constantly pick itself as #1, so I removed the model names from the judge….
לפוסט המקורי ↗



