BIGDATAI Telegram 1464
🪷 SE-Agent: Как LLM-агенты учатся исправлять код за несколько шагов

Оказывается, ИИ-агенты для работы с кодом можно научить не просто пробовать разные варианты, а эволюционировать — улучшать свои рассуждения на ходу. Новый подход SE-Agent (Self-Evolution Agent) предлагает не просто генерировать множество попыток, а анализировать и комбинировать лучшие части из разных мысленных траекторий.

Вместо того чтобы зацикливаться на однотипных исправлениях, агент учится выявлять корневые проблемы. В одном из примеров обычные агенты пытались скрыть ошибку в валидации, а SE-Agent нашёл отсутствующее поле classes_ и исправил саму причину бага. На тестах SWE-bench метод показывает впечатляющие результаты: Pass@1 достигает 61,2% для Claude 3.5 Sonnet и 54,8% для DeepSeek-V3. При этом он эффективен даже с ограниченным бюджетом на API-запросы.

🔗 Ссылка - *клик*

@bigdatai



tgoop.com/bigdatai/1464
Create:
Last Update:

🪷 SE-Agent: Как LLM-агенты учатся исправлять код за несколько шагов

Оказывается, ИИ-агенты для работы с кодом можно научить не просто пробовать разные варианты, а эволюционировать — улучшать свои рассуждения на ходу. Новый подход SE-Agent (Self-Evolution Agent) предлагает не просто генерировать множество попыток, а анализировать и комбинировать лучшие части из разных мысленных траекторий.

Вместо того чтобы зацикливаться на однотипных исправлениях, агент учится выявлять корневые проблемы. В одном из примеров обычные агенты пытались скрыть ошибку в валидации, а SE-Agent нашёл отсутствующее поле classes_ и исправил саму причину бага. На тестах SWE-bench метод показывает впечатляющие результаты: Pass@1 достигает 61,2% для Claude 3.5 Sonnet и 54,8% для DeepSeek-V3. При этом он эффективен даже с ограниченным бюджетом на API-запросы.

🔗 Ссылка - *клик*

@bigdatai

BY Big Data AI




Share with your friend now:
tgoop.com/bigdatai/1464

View MORE
Open in Telegram


Telegram News

Date: |

Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” A vandalised bank during the 2019 protest. File photo: May James/HKFP. Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. Telegram users themselves will be able to flag and report potentially false content. Read now
from us


Telegram Big Data AI
FROM American