Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
47 - Telegram Web
Telegram Web
Ну что, сработала техника, получается. А нужен был всего лишь простой советский перевод Агаты Кристи.

Сайга пока догоняет, поэтому в качестве основы я взял Вихрь-Немо.

Аналогично оригинальному Ataraxy, дообучил модель через ORPO на датасете, описанном выше, и слил получившийся тюн с оригиналом. Внезапно получил +0.1 на ПингПонге. На арене стало чуть хуже, 77 у новой модели vs 80 у оригинала.

Сама модель: vikhr_nemo_orpo_dostoevsky_12b_slerp
В боте она тоже есть.
🔥26🤡3👍2👏1
Привет!

Спасибо Илье за репорт, мы обновили карточку модели и выкинули дубликаты из GrandMasterProMax

На днях обновим публичную арену

Когда мы готовили датасеты и арену мы старались дизайнить их устойчивыми к взломам, но в итоги вышли сами на себя 😅

Мы почти уверены что даже доливка всей арены не повлият очень значимо на перфоманс. В будущем будем помимо ngramной дедупликации использовать еще и exact match.
🔥17👍7😁7🤡43
Паблик арена слегка страдает от обновления, поэтому пока так

Ygpt v4 lite где то на уровне llama 8b, но с точки зрения русского очевидно будет лучше

Ygptv4 pro где то на уровне mistral nemo 12b

Qwen2.5 14b на уровне тюненной gemma/mistral Nemo
😁9
Мммм, 35 место. Но так-то серьёзный скачок с 46. В комментах скриншоты с артефактами.
👍8😁2
Мы дочинили arenahard, сабмиты снова работают как и раньше (спасибо gradio за обновления)

А также добавился gigachat max censored и uncensored. Подозреваю что цензор это мелкая модель сверху которая помимо прочего сильно режет качество генераций.


Версия с цензором где то между mistral nemo и gemma 27b. Версия без цензора на простой корзине(без особого кода, ризонинга и прочего) на уровне 4о.

Крутой рост за полгода, посмотрим что будет дальше.
👍37🤡12🔥9🤯6👏3
💨👁 Vikhr-2-VL-2b-Instruct-experimental

это компактная VLM модель, обученная на переведенном датасете LLAVA-150K, специально доученная для обработки на русском языке. Дообученная модель является эксперементальной и не всегда будет работать ожидаемо (особенно OCR).

Ждем вашего фидбека от использования модели)

HuggingFace
Colab

Коллектив авторов: @LakoMoorDev @mlunderground @nlpwanderer
🔥25👍8🤡3👀1
Обновилась llmarena.ru

TLDR
Vikhr Nemo - лучшая opensource модель в своем классе!
🔥33👍61👏1😁1
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:

“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”

Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
27🔥8👍6❤‍🔥5
Постер нашей статьи на EMNLP.

Самая статья для тех кто не читал.
🔥43🤡17👎8🤮7👍3👏2
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:

“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”

Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
👍21🤡7👎3🤮3
К сожалению произошла техническая накладка и не все смогли зайти. Выкладываем слайды и запись лекции.

Комментарии к посту отключены, старые удалились

YouTube
Slides
👍30💩85🔥4
По arena bench

- хф слегка в очередной раз обновился и лб криво обновился(слетели Гиги, вихри, ruadapt)
- мы откатили на 17d ago версию, последние сабмиты(сайга новая, ruadapt qwen и ещё что то - пересчитываются)
🔥8
Forwarded from MTS AI
🔓 Открываем код: Cotype Nano

Представляем Cotype Nano – открытую большую языковую модель, которая создана для решения бизнес-задач на русском языке. Модель работает локально на персональных устройствах и отлично подходит для разработки чат-ботов и виртуальных помощников.

Что умеет:
🔴Обрабатывать большие объемы данных — до 32,000 токенов (около 45 страниц текста) за раз
🔴Создавать контент и выполнять быстрый и точный перевод между русским и английским языками
🔴Анализировать и классифицировать данные для улучшения клиентского сервиса

Как устроена:
Модель основана на архитектуре трансформера Qwen 2.5, содержит 1,5 млрд параметров и совместима с популярными фреймворками: VLLM, OpenVINO и Hugging Face.

По бенчмаркам Ru Arena Hard Cotype Nano лидирует в своем классе (30.2). Доступна бесплатно, в том числе для коммерческого использования.

Узнать больше и скачать модель можно тут.

💻 Подробные технические характеристики на Хабре.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥10❤‍🔥5🤡31
Мы в Вихрях часто делаем модели в стол или оставляем их на время полежать. Собственно в этот раз ребята из MTSa опередили нас с релизом на несколько дней.

Выложили vikhr-qwen2.5-1.5b.

Для обучения использовали GrandMaster.

По арене чуть чуть хуже чем Cotype.

model
GGUF
👍25❤‍🔥8🔥2💩2🤡2👀1
благодаря автору @plotquot теперь вихри стали ОЧЕНЬ быстрыми для мака

забрать для M серии мака тут
🔥18😁113😱1💔1
Ура, мы преодолели отметку в 1000 подписчиков!
👍5431🎉13🍾7🤡6🔥2🤮2👏1😁1💩1👀1
Два года назад я думал о том как русифицировать модели и что нужно делать LLM на русском с фокусом на английском. Потому что код это английский, да и на английском интернет качественнее. Потом произошел chatgpt moment, saiga(изначально задумывалась как претрен, но мы не вывезли)

А в декабре прошлого года я начал Вихри. Спустя год мы поддерживаем основные модальности, пишем статьи на А* воркшопы(хоть и не без косяков), и строим комьюнити вокруг своих моделей.

Горжусь всеми контрибьюторами кто присоединлся за год, без этого бы не было, вы лучшие!

Рад всем участникам сообщества, безумно благодарен всем кто донатил, писал в личку с благодарностями и рассказывал о наших моделях на лекциях и конференциях.
👍7138🔥20🎄10🥰5🎅2🖕1
Так как нашу статью приняли к публикации мы подготовили препринт версию статьи и выложили ее на arxiv 🎉
https://arxiv.org/abs/2412.21140
https://huggingface.co/papers/2412.21140

Что вы найдете в статье:

1. Полное описание применяемого метода
2. Информацию о проведенных экспериментах над моделями llama-3-8B и mistral-7B-v0.1 и их инструктивными версиями
3. Информацию об исследованных вариантах токенизации (BPE, Unigram, Extended), однако, которые не включают в себя наш последний вариант с токенизацией, который мы применяем для Qwen2.5 моделей.
4. Мат описание LEP и его вариантов, которые мы пробовали, а также эксперименты для выбора наилучшего

Чего в статье нет:
1. Экспериментов с Qwen2.5 моделями

Некоторые краткие хайлайты:
1. Расширение токенизации работает лучше, чем полная замена для модели llama-3 (а значит, скорее всего, и для всех моделей на основе cl100k_base токенайзера, либо же для всех современных мультиязычных моделей), но при этом для модели mistral-7B все не так однозначно, там unigram токенизация сработала отлично.

2. Для того чтобы найти рабочий рецепт требуется огромное количество экспериментов (в статье по сути мы описали только некоторую часть), а значит и быстрая оценка промежуточных моделей. Поэтому для этих целей мы использовали наш некоторый внутренний бенчмарк, который может быть относительно шустро посчитан на месте, без отправки сабмитов куда-либо.

3. По сути, для адаптации хватает и 20GB, а возможно и меньше данных, но это если верить метрикам. Loss же на самом деле падает очень стремительно вначале, а затем уже не так активно.

4. learning rate (а также total batch size) оказались крайне важными для адаптации LLaMa-3-8B (с низким lr модель просто не адаптировалась, метрики росли очень медленно), но не слишком важными для Mistral-7B-v0.1. Единого рецепта тут нет, для каждой модели видимо необходимо подбирать индивидуально.

5. Обычно при адаптации наблюдается небольшая просадка по mmlu_en относительно исходной модели, но ее можно минимизировать, на остальных же задачах в основном наблюдается рост, из-за чего среднее качество либо не падает, либо растет.

6. Таким образом, методология опробована на 1) Mistral-7B-v0.1, 2) LLaMa-3-8B и 3) Моделях Qwen2.5 и во всех случаях поставленная задача по смене токенизации решается без особых потерь знаний относительно исходной модели, а как приятный бонус, растет качество на некоторых русскоязычных бенчмарках и датасетах. Смена же токенизации дает де-факто ускорение генерации русскоязычного текста в символах/словах, по отношению к исходной модели, доводя вычислительную и экономическую эффективность использования на целевом языке до уровня английского.
30👍6🔥5🤔1
2025/10/15 21:02:24
Back to Top
HTML Embed Code: