Machine learning Interview@machinelearning

Machine learning Interview

🛠 Эксперименты с обучением моделей для нейроредактора в Яндекс Браузере

Команда разработки доработала предыдущее решение, что в итоге привело к созданию отдельного инструмента на основе языковой модели YandexGPT. Он помогает пользователям создавать тексты с нуля и улучшать готовые прямо в браузере — например, исправлять ошибки и переписывать в определенном стиле и формате.

Для офлайн-метрик использовалась диффалка, написанная на Go. Диффалка работает на основе алгоритма поиска наибольшей общей подпоследовательности (LCS): ищутся наидлиннейшие общие подпоследовательности между версиями текста. Это позволило подсчитывать количество ошибок, которые модель не исправляет, сравнивая вывод модели с текстом, отредактированным человеком, и проверять гипотезы о качестве, экономя время.

Эксперименты (переход к Encoder-Decoder, curriculum learning, предобучение) дали ускорение в 2 раза и +10% качества на открытых датасетах.

Раньше при нейроредактировании модель могла легко удалить или добавить лишние спецсимволы, что приводило к непредсказуемым результатам. Теперь, с внедрением полноценной поддержки Маркдауна, эта проблема устранена. Для обеспечения корректной обработки разметки применялся подход восстановления: прогон текста через модель, ручное восстановление пропавшей разметки и переобучение модели. В итоге достигнуто сохранение разметки 1:1 в модели исправления ошибок.

📝 Хабр

@machinelearning_interview

👍15❤3🔥3

www.tgoop.com/machinelearning_interview/1197

4.19K viewsSep 23, 2024 at 11:00

tgoop.com/machinelearning_interview/1197

Create: 2024-09-23
Last Update: 2025-07-14 16:21:41

BY Machine learning Interview

Share with your friend now:
tgoop.com/machinelearning_interview/1197

Telegram News

🛠 Эксперименты с обучением моделей для нейроредактора в Яндекс Браузере