MACHINELEARNING_INTERVIEW Telegram 1197
🛠 Эксперименты с обучением моделей для нейроредактора в Яндекс Браузере

Команда разработки доработала предыдущее решение, что в итоге привело к созданию отдельного инструмента на основе языковой модели YandexGPT. Он помогает пользователям создавать тексты с нуля и улучшать готовые прямо в браузере — например, исправлять ошибки и переписывать в определенном стиле и формате.

Для офлайн-метрик использовалась диффалка, написанная на Go. Диффалка работает на основе алгоритма поиска наибольшей общей подпоследовательности (LCS): ищутся наидлиннейшие общие подпоследовательности между версиями текста. Это позволило подсчитывать количество ошибок, которые модель не исправляет, сравнивая вывод модели с текстом, отредактированным человеком, и проверять гипотезы о качестве, экономя время.

Эксперименты (переход к Encoder-Decoder, curriculum learning, предобучение) дали ускорение в 2 раза и +10% качества на открытых датасетах.

Раньше при нейроредактировании модель могла легко удалить или добавить лишние спецсимволы, что приводило к непредсказуемым результатам. Теперь, с внедрением полноценной поддержки Маркдауна, эта проблема устранена. Для обеспечения корректной обработки разметки применялся подход восстановления: прогон текста через модель, ручное восстановление пропавшей разметки и переобучение модели. В итоге достигнуто сохранение разметки 1:1 в модели исправления ошибок.

📝 Хабр

@machinelearning_interview
👍153🔥3



tgoop.com/machinelearning_interview/1197
Create:
Last Update:

🛠 Эксперименты с обучением моделей для нейроредактора в Яндекс Браузере

Команда разработки доработала предыдущее решение, что в итоге привело к созданию отдельного инструмента на основе языковой модели YandexGPT. Он помогает пользователям создавать тексты с нуля и улучшать готовые прямо в браузере — например, исправлять ошибки и переписывать в определенном стиле и формате.

Для офлайн-метрик использовалась диффалка, написанная на Go. Диффалка работает на основе алгоритма поиска наибольшей общей подпоследовательности (LCS): ищутся наидлиннейшие общие подпоследовательности между версиями текста. Это позволило подсчитывать количество ошибок, которые модель не исправляет, сравнивая вывод модели с текстом, отредактированным человеком, и проверять гипотезы о качестве, экономя время.

Эксперименты (переход к Encoder-Decoder, curriculum learning, предобучение) дали ускорение в 2 раза и +10% качества на открытых датасетах.

Раньше при нейроредактировании модель могла легко удалить или добавить лишние спецсимволы, что приводило к непредсказуемым результатам. Теперь, с внедрением полноценной поддержки Маркдауна, эта проблема устранена. Для обеспечения корректной обработки разметки применялся подход восстановления: прогон текста через модель, ручное восстановление пропавшей разметки и переобучение модели. В итоге достигнуто сохранение разметки 1:1 в модели исправления ошибок.

📝 Хабр

@machinelearning_interview

BY Machine learning Interview




Share with your friend now:
tgoop.com/machinelearning_interview/1197

View MORE
Open in Telegram


Telegram News

Date: |

A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Healing through screaming therapy Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading.
from us


Telegram Machine learning Interview
FROM American