BIGDATA_1 Telegram 965
🛠️ UTGEN + UTDEBUG: обучаем LLM генерировать модульные тесты для автоматической отладки кода

Модульные тесты помогают LLM исправлять ошибки в коде. Но сложно одновременно подобрать тесты к багованному коду и правильно предсказать ожидаемый результат без эталона.
Решение: UTGEN учит LLM генерировать входы и правильные выходы тестов на основе описания задачи и кода-кандидата.
+ UTDEBUG — пайплайн отладки, который использует эти тесты, чтобы повышать качество исправлений.

Как работает:
- Портят эталонный код → создают баги.
- Генерируют тесты, оставляя только те, что выявляют ошибки.
- Добавляют цепочки рассуждений (CoT) к тестам.
- При отладке используют голосование по нескольким ответам и откат, если изменения не улучшают процент прохождения тестов.

Результаты:
- UTGEN лучше базовых методов на +7.59%.
- С UTDEBUG модель Qwen-2.5 7B показывает рост pass@1 на +3% (HumanEval-Fix) и +12.35% (MBPP+).

Blog https://medium.com/@techsachin/teaching-llms-to-generate-unit-tests-for-automated-debugging-of-code-78c62778e4b2
Paper https://arxiv.org/abs/2502.01619
Code https://github.com/archiki/UTGenDebug

👉 @bigdata_1
👍2



tgoop.com/bigdata_1/965
Create:
Last Update:

🛠️ UTGEN + UTDEBUG: обучаем LLM генерировать модульные тесты для автоматической отладки кода

Модульные тесты помогают LLM исправлять ошибки в коде. Но сложно одновременно подобрать тесты к багованному коду и правильно предсказать ожидаемый результат без эталона.
Решение: UTGEN учит LLM генерировать входы и правильные выходы тестов на основе описания задачи и кода-кандидата.
+ UTDEBUG — пайплайн отладки, который использует эти тесты, чтобы повышать качество исправлений.

Как работает:
- Портят эталонный код → создают баги.
- Генерируют тесты, оставляя только те, что выявляют ошибки.
- Добавляют цепочки рассуждений (CoT) к тестам.
- При отладке используют голосование по нескольким ответам и откат, если изменения не улучшают процент прохождения тестов.

Результаты:
- UTGEN лучше базовых методов на +7.59%.
- С UTDEBUG модель Qwen-2.5 7B показывает рост pass@1 на +3% (HumanEval-Fix) и +12.35% (MBPP+).

Blog https://medium.com/@techsachin/teaching-llms-to-generate-unit-tests-for-automated-debugging-of-code-78c62778e4b2
Paper https://arxiv.org/abs/2502.01619
Code https://github.com/archiki/UTGenDebug

👉 @bigdata_1

BY BigData




Share with your friend now:
tgoop.com/bigdata_1/965

View MORE
Open in Telegram


Telegram News

Date: |

While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members.
from us


Telegram BigData
FROM American