Forwarded from Старший Авгур
Ну что, сработала техника, получается. А нужен был всего лишь простой советский перевод Агаты Кристи .
Сайга пока догоняет, поэтому в качестве основы я взял Вихрь-Немо.
Аналогично оригинальному Ataraxy, дообучил модель через ORPO на датасете, описанном выше, и слил получившийся тюн с оригиналом. Внезапно получил +0.1 на ПингПонге. На арене стало чуть хуже, 77 у новой модели vs 80 у оригинала.
Сама модель: vikhr_nemo_orpo_dostoevsky_12b_slerp
В боте она тоже есть.
Сайга пока догоняет, поэтому в качестве основы я взял Вихрь-Немо.
Аналогично оригинальному Ataraxy, дообучил модель через ORPO на датасете, описанном выше, и слил получившийся тюн с оригиналом. Внезапно получил +0.1 на ПингПонге. На арене стало чуть хуже, 77 у новой модели vs 80 у оригинала.
Сама модель: vikhr_nemo_orpo_dostoevsky_12b_slerp
В боте она тоже есть.
🔥26🤡3👍2👏1
Привет!
Спасибо Илье за репорт, мы обновили карточку модели и выкинули дубликаты из GrandMasterProMax
На днях обновим публичную арену
Когда мы готовили датасеты и арену мы старались дизайнить их устойчивыми к взломам, но в итоги вышли сами на себя 😅
Мы почти уверены что даже доливка всей арены не повлият очень значимо на перфоманс. В будущем будем помимо ngramной дедупликации использовать еще и exact match.
Спасибо Илье за репорт, мы обновили карточку модели и выкинули дубликаты из GrandMasterProMax
На днях обновим публичную арену
Когда мы готовили датасеты и арену мы старались дизайнить их устойчивыми к взломам, но в итоги вышли сами на себя 😅
Мы почти уверены что даже доливка всей арены не повлият очень значимо на перфоманс. В будущем будем помимо ngramной дедупликации использовать еще и exact match.
Telegram
Старший Авгур
Ларчик с Вихрём Немо просто открывался. Рецепт оказался прост: трейн на тесте.
Я недавно случайно обнаружил, что в GrandMaster-PRO-MAX лежит около 180 промптов и ответов на них из ru_arena_general. А их там всего 500, то есть больше трети примеров из тестов…
Я недавно случайно обнаружил, что в GrandMaster-PRO-MAX лежит около 180 промптов и ответов на них из ru_arena_general. А их там всего 500, то есть больше трети примеров из тестов…
🔥17👍7😁7🤡4❤3
Forwarded from Старший Авгур
Мммм, 35 место. Но так-то серьёзный скачок с 46. В комментах скриншоты с артефактами.
👍8😁2
Мы дочинили arenahard, сабмиты снова работают как и раньше (спасибо gradio за обновления)
А также добавился gigachat max censored и uncensored. Подозреваю что цензор это мелкая модель сверху которая помимо прочего сильно режет качество генераций.
Версия с цензором где то между mistral nemo и gemma 27b. Версия без цензора на простой корзине(без особого кода, ризонинга и прочего) на уровне 4о.
Крутой рост за полгода, посмотрим что будет дальше.
А также добавился gigachat max censored и uncensored. Подозреваю что цензор это мелкая модель сверху которая помимо прочего сильно режет качество генераций.
Версия с цензором где то между mistral nemo и gemma 27b. Версия без цензора на простой корзине(без особого кода, ризонинга и прочего) на уровне 4о.
Крутой рост за полгода, посмотрим что будет дальше.
👍37🤡12🔥9🤯6👏3
💨👁 Vikhr-2-VL-2b-Instruct-experimental
это компактная VLM модель, обученная на переведенном датасете LLAVA-150K, специально доученная для обработки на русском языке. Дообученная модель является эксперементальной и не всегда будет работать ожидаемо (особенно OCR).
Ждем вашего фидбека от использования модели)
HuggingFace
Colab
Коллектив авторов: @LakoMoorDev @mlunderground @nlpwanderer
это компактная VLM модель, обученная на переведенном датасете LLAVA-150K, специально доученная для обработки на русском языке. Дообученная модель является эксперементальной и не всегда будет работать ожидаемо (особенно OCR).
Ждем вашего фидбека от использования модели)
HuggingFace
Colab
Коллектив авторов: @LakoMoorDev @mlunderground @nlpwanderer
🔥25👍8🤡3👀1
Forwarded from NLP семинар, ЛЕЯ (ВШЭ СПб)
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:
“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”
Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”
Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
❤27🔥8👍6❤🔥5
Forwarded from NLP семинар, ЛЕЯ (ВШЭ СПб)
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:
“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”
Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”
Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
👍21🤡7👎3🤮3
Forwarded from MTS AI
🔓 Открываем код: Cotype Nano
Представляем Cotype Nano – открытую большую языковую модель, которая создана для решения бизнес-задач на русском языке. Модель работает локально на персональных устройствах и отлично подходит для разработки чат-ботов и виртуальных помощников.
Что умеет:
🔴 Обрабатывать большие объемы данных — до 32,000 токенов (около 45 страниц текста) за раз
🔴 Создавать контент и выполнять быстрый и точный перевод между русским и английским языками
🔴 Анализировать и классифицировать данные для улучшения клиентского сервиса
➡ Как устроена:
Модель основана на архитектуре трансформера Qwen 2.5, содержит 1,5 млрд параметров и совместима с популярными фреймворками: VLLM, OpenVINO и Hugging Face.
➡ По бенчмаркам Ru Arena Hard Cotype Nano лидирует в своем классе (30.2). Доступна бесплатно, в том числе для коммерческого использования.
➡ Узнать больше и скачать модель можно тут.
💻 Подробные технические характеристики — на Хабре.
Представляем Cotype Nano – открытую большую языковую модель, которая создана для решения бизнес-задач на русском языке. Модель работает локально на персональных устройствах и отлично подходит для разработки чат-ботов и виртуальных помощников.
Что умеет:
Модель основана на архитектуре трансформера Qwen 2.5, содержит 1,5 млрд параметров и совместима с популярными фреймворками: VLLM, OpenVINO и Hugging Face.
💻 Подробные технические характеристики — на Хабре.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥10❤🔥5🤡3❤1
Два года назад я думал о том как русифицировать модели и что нужно делать LLM на русском с фокусом на английском. Потому что код это английский, да и на английском интернет качественнее. Потом произошел chatgpt moment, saiga(изначально задумывалась как претрен, но мы не вывезли)
А в декабре прошлого года я начал Вихри. Спустя год мы поддерживаем основные модальности, пишем статьи на А* воркшопы(хоть и не без косяков), и строим комьюнити вокруг своих моделей.
Горжусь всеми контрибьюторами кто присоединлся за год, без этого бы не было, вы лучшие!
Рад всем участникам сообщества, безумно благодарен всем кто донатил, писал в личку с благодарностями и рассказывал о наших моделях на лекциях и конференциях.
А в декабре прошлого года я начал Вихри. Спустя год мы поддерживаем основные модальности, пишем статьи на А* воркшопы(хоть и не без косяков), и строим комьюнити вокруг своих моделей.
Горжусь всеми контрибьюторами кто присоединлся за год, без этого бы не было, вы лучшие!
Рад всем участникам сообщества, безумно благодарен всем кто донатил, писал в личку с благодарностями и рассказывал о наших моделях на лекциях и конференциях.
👍71❤38🔥20🎄10🥰5🎅2🖕1
Forwarded from Ruadaptная комната
Так как нашу статью приняли к публикации мы подготовили препринт версию статьи и выложили ее на arxiv 🎉
https://arxiv.org/abs/2412.21140
https://huggingface.co/papers/2412.21140
Что вы найдете в статье:
1. Полное описание применяемого метода
2. Информацию о проведенных экспериментах над моделями llama-3-8B и mistral-7B-v0.1 и их инструктивными версиями
3. Информацию об исследованных вариантах токенизации (BPE, Unigram, Extended), однако, которые не включают в себя наш последний вариант с токенизацией, который мы применяем для Qwen2.5 моделей.
4. Мат описание LEP и его вариантов, которые мы пробовали, а также эксперименты для выбора наилучшего
Чего в статье нет:
1. Экспериментов с Qwen2.5 моделями
Некоторые краткие хайлайты:
1. Расширение токенизации работает лучше, чем полная замена для модели llama-3 (а значит, скорее всего, и для всех моделей на основе cl100k_base токенайзера, либо же для всех современных мультиязычных моделей), но при этом для модели mistral-7B все не так однозначно, там unigram токенизация сработала отлично.
2. Для того чтобы найти рабочий рецепт требуется огромное количество экспериментов (в статье по сути мы описали только некоторую часть), а значит и быстрая оценка промежуточных моделей. Поэтому для этих целей мы использовали наш некоторый внутренний бенчмарк, который может быть относительно шустро посчитан на месте, без отправки сабмитов куда-либо.
3. По сути, для адаптации хватает и 20GB, а возможно и меньше данных, но это если верить метрикам. Loss же на самом деле падает очень стремительно вначале, а затем уже не так активно.
4. learning rate (а также total batch size) оказались крайне важными для адаптации LLaMa-3-8B (с низким lr модель просто не адаптировалась, метрики росли очень медленно), но не слишком важными для Mistral-7B-v0.1. Единого рецепта тут нет, для каждой модели видимо необходимо подбирать индивидуально.
5. Обычно при адаптации наблюдается небольшая просадка по mmlu_en относительно исходной модели, но ее можно минимизировать, на остальных же задачах в основном наблюдается рост, из-за чего среднее качество либо не падает, либо растет.
6. Таким образом, методология опробована на 1) Mistral-7B-v0.1, 2) LLaMa-3-8B и 3) Моделях Qwen2.5 и во всех случаях поставленная задача по смене токенизации решается без особых потерь знаний относительно исходной модели, а как приятный бонус, растет качество на некоторых русскоязычных бенчмарках и датасетах. Смена же токенизации дает де-факто ускорение генерации русскоязычного текста в символах/словах, по отношению к исходной модели, доводя вычислительную и экономическую эффективность использования на целевом языке до уровня английского.
https://arxiv.org/abs/2412.21140
https://huggingface.co/papers/2412.21140
Что вы найдете в статье:
1. Полное описание применяемого метода
2. Информацию о проведенных экспериментах над моделями llama-3-8B и mistral-7B-v0.1 и их инструктивными версиями
3. Информацию об исследованных вариантах токенизации (BPE, Unigram, Extended), однако, которые не включают в себя наш последний вариант с токенизацией, который мы применяем для Qwen2.5 моделей.
4. Мат описание LEP и его вариантов, которые мы пробовали, а также эксперименты для выбора наилучшего
Чего в статье нет:
1. Экспериментов с Qwen2.5 моделями
Некоторые краткие хайлайты:
1. Расширение токенизации работает лучше, чем полная замена для модели llama-3 (а значит, скорее всего, и для всех моделей на основе cl100k_base токенайзера, либо же для всех современных мультиязычных моделей), но при этом для модели mistral-7B все не так однозначно, там unigram токенизация сработала отлично.
2. Для того чтобы найти рабочий рецепт требуется огромное количество экспериментов (в статье по сути мы описали только некоторую часть), а значит и быстрая оценка промежуточных моделей. Поэтому для этих целей мы использовали наш некоторый внутренний бенчмарк, который может быть относительно шустро посчитан на месте, без отправки сабмитов куда-либо.
3. По сути, для адаптации хватает и 20GB, а возможно и меньше данных, но это если верить метрикам. Loss же на самом деле падает очень стремительно вначале, а затем уже не так активно.
4. learning rate (а также total batch size) оказались крайне важными для адаптации LLaMa-3-8B (с низким lr модель просто не адаптировалась, метрики росли очень медленно), но не слишком важными для Mistral-7B-v0.1. Единого рецепта тут нет, для каждой модели видимо необходимо подбирать индивидуально.
5. Обычно при адаптации наблюдается небольшая просадка по mmlu_en относительно исходной модели, но ее можно минимизировать, на остальных же задачах в основном наблюдается рост, из-за чего среднее качество либо не падает, либо растет.
6. Таким образом, методология опробована на 1) Mistral-7B-v0.1, 2) LLaMa-3-8B и 3) Моделях Qwen2.5 и во всех случаях поставленная задача по смене токенизации решается без особых потерь знаний относительно исходной модели, а как приятный бонус, растет качество на некоторых русскоязычных бенчмарках и датасетах. Смена же токенизации дает де-факто ускорение генерации русскоязычного текста в символах/словах, по отношению к исходной модели, доводя вычислительную и экономическую эффективность использования на целевом языке до уровня английского.
arXiv.org
Facilitating large language model Russian adaptation with Learned...
Rapid advancements of large language model (LLM) technologies led to the introduction of powerful open-source instruction-tuned LLMs that have the same text generation quality as the...
❤30👍6🔥5🤔1