tgoop.com/bigdatai/1410
Last Update:
В открытый доступ выложили и обновили RuModernBERT — модель от VK для обработки естественного русского языка. Доступны две версии: 150M и 35M. Обучали на 2 триллионах токенов данных — брали всё: от классической литературы до соцсетей и документации.
Она понимает длинные тексты целиком, без разбиения на фрагменты и работает локально, без внешних API, что снижает нагрузку на инфраструктуру. Инженеры могут использовать ее для задач в области обработки текста, в том числе для извлечения информации, анализа тональности, поиска и ранжирования в приложениях и сервисах. А пользователи, таким образом смогут быстрее находить информацию, документы, видео или товары.
По скорости работы обходит аналоги — особенно на больших текстах (в 2-3 раза быстрее) и при запуске на устройствах (плюс 10-20% к скорости). В тестах по русскому языку показала топовые результаты.
Доступна на Hugging Face — там же лежат обновлённые USER/USER2 для группировки и поиска похожей информации.
BY Big Data AI

Share with your friend now:
tgoop.com/bigdatai/1410