tgoop.com/max_dot_sh/95
Last Update:
Блогпост
Веса доступны на HF с лицензией Apache 2.0, что супер для коммерческого использования.
Относительно компактная, 24B, можно поднять у себя локально.
На SWE-Bench Verfified (бенчмарк для оценки кодинговых агентов на GitHub issues) модель заметно обходит многих проприетарных конкурентов (haiku, gpt 4.1 mini), а так же модели большего размера (DeepSeek-R1, Qwen3). Но эти модели, к слову, и не были оптимизированы специаильно для coding-assitance.
Важное уточнение: Devstral показывает такие результаты через scaffolding OpenHands от компании All Hands AI 🙌.
Скаффолдинг в контексте кодинговых агентов - это среда, которая предоставляет утилиты, тулзы, другие полезные инструменты, которые упрощают жизнь агенту. Например, тул поиска по классам в проекте, доступ к grep команде, web search - короче говоря все, чтобы использует реальный разработчик, но только в удобном формате для AI агента. Eсли поднимаете у себя Devstral локально, то чтобы максимизировать пользу от агента, нужна еще и подобная среда.
Поэтому такие метрики могут быть в целом, из-за того что Devstral был натюнен под работу с OpenHands средой (скорее всего именно это), или потому что набор доступных инструментов в этой среде лучше, чем у других подобных сред.
А вообще All Hands AI 🙌 классные. Двигают опенсоурс, выкладывают своих агентов, опенсоурсят код скаффолд среды.
А кому интересно как работают такие агенты в приницпе, как их дизайнить, оценивать и куда двигается прогресс дальше - можете посмотерть лекцию тут.
@max_dot_sh