tgoop.com/bigdata_1/965
Last Update:
🛠️ UTGEN + UTDEBUG: обучаем LLM генерировать модульные тесты для автоматической отладки кода
Модульные тесты помогают LLM исправлять ошибки в коде. Но сложно одновременно подобрать тесты к багованному коду и правильно предсказать ожидаемый результат без эталона.
Решение: UTGEN учит LLM генерировать входы и правильные выходы тестов на основе описания задачи и кода-кандидата.
+ UTDEBUG — пайплайн отладки, который использует эти тесты, чтобы повышать качество исправлений.
Как работает:
- Портят эталонный код → создают баги.
- Генерируют тесты, оставляя только те, что выявляют ошибки.
- Добавляют цепочки рассуждений (CoT) к тестам.
- При отладке используют голосование по нескольким ответам и откат, если изменения не улучшают процент прохождения тестов.
Результаты:
- UTGEN лучше базовых методов на +7.59%.
- С UTDEBUG модель Qwen-2.5 7B показывает рост pass@1 на +3% (HumanEval-Fix) и +12.35% (MBPP+).
Blog https://medium.com/@techsachin/teaching-llms-to-generate-unit-tests-for-automated-debugging-of-code-78c62778e4b2
Paper https://arxiv.org/abs/2502.01619
Code https://github.com/archiki/UTGenDebug
👉 @bigdata_1
BY BigData

Share with your friend now:
tgoop.com/bigdata_1/965