Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/bigdata_1/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
BigData@bigdata_1 P.965
BIGDATA_1 Telegram 965
🛠️ UTGEN + UTDEBUG: обучаем LLM генерировать модульные тесты для автоматической отладки кода

Модульные тесты помогают LLM исправлять ошибки в коде. Но сложно одновременно подобрать тесты к багованному коду и правильно предсказать ожидаемый результат без эталона.
Решение: UTGEN учит LLM генерировать входы и правильные выходы тестов на основе описания задачи и кода-кандидата.
+ UTDEBUG — пайплайн отладки, который использует эти тесты, чтобы повышать качество исправлений.

Как работает:
- Портят эталонный код → создают баги.
- Генерируют тесты, оставляя только те, что выявляют ошибки.
- Добавляют цепочки рассуждений (CoT) к тестам.
- При отладке используют голосование по нескольким ответам и откат, если изменения не улучшают процент прохождения тестов.

Результаты:
- UTGEN лучше базовых методов на +7.59%.
- С UTDEBUG модель Qwen-2.5 7B показывает рост pass@1 на +3% (HumanEval-Fix) и +12.35% (MBPP+).

Blog https://medium.com/@techsachin/teaching-llms-to-generate-unit-tests-for-automated-debugging-of-code-78c62778e4b2
Paper https://arxiv.org/abs/2502.01619
Code https://github.com/archiki/UTGenDebug

👉 @bigdata_1



tgoop.com/bigdata_1/965
Create:
Last Update:

🛠️ UTGEN + UTDEBUG: обучаем LLM генерировать модульные тесты для автоматической отладки кода

Модульные тесты помогают LLM исправлять ошибки в коде. Но сложно одновременно подобрать тесты к багованному коду и правильно предсказать ожидаемый результат без эталона.
Решение: UTGEN учит LLM генерировать входы и правильные выходы тестов на основе описания задачи и кода-кандидата.
+ UTDEBUG — пайплайн отладки, который использует эти тесты, чтобы повышать качество исправлений.

Как работает:
- Портят эталонный код → создают баги.
- Генерируют тесты, оставляя только те, что выявляют ошибки.
- Добавляют цепочки рассуждений (CoT) к тестам.
- При отладке используют голосование по нескольким ответам и откат, если изменения не улучшают процент прохождения тестов.

Результаты:
- UTGEN лучше базовых методов на +7.59%.
- С UTDEBUG модель Qwen-2.5 7B показывает рост pass@1 на +3% (HumanEval-Fix) и +12.35% (MBPP+).

Blog https://medium.com/@techsachin/teaching-llms-to-generate-unit-tests-for-automated-debugging-of-code-78c62778e4b2
Paper https://arxiv.org/abs/2502.01619
Code https://github.com/archiki/UTGenDebug

👉 @bigdata_1

BY BigData




Share with your friend now:
tgoop.com/bigdata_1/965

View MORE
Open in Telegram


Telegram News

Date: |

Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. Informative You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. Read now
from us


Telegram BigData
FROM American