⚡️ruIFEval: подход к оценке alignment для LLM на русском языке
Мы сделали перевод датасета и адаптацию кода на русский язык для нового подхода к оценке качества LLM от Google. Подход ruIFEval оценивает способности модели следовать инструкциям на естественном языке. Он фокусируется на наборе «проверяемых инструкций», которые определяются как инструкции, поддающиеся объективной проверке соответствия, таких как «Напишите от 200 до 250 слов» и «весь ваш вывод должен быть в формате json». В силу того, что оценки асессорами являются дорогостоящими, медленными и объективно не воспроизводимыми, и в свою очередь автоматическая оценка на основе LLM ограничена способностями оценщика LLM, то чтобы преодолеть эти проблемы, вводится подход к оценке ruIFEval, который стремится повысить быстроту, ясность и объективность автоматической оценки.
GitHub | Paper
Мы сделали перевод датасета и адаптацию кода на русский язык для нового подхода к оценке качества LLM от Google. Подход ruIFEval оценивает способности модели следовать инструкциям на естественном языке. Он фокусируется на наборе «проверяемых инструкций», которые определяются как инструкции, поддающиеся объективной проверке соответствия, таких как «Напишите от 200 до 250 слов» и «весь ваш вывод должен быть в формате json». В силу того, что оценки асессорами являются дорогостоящими, медленными и объективно не воспроизводимыми, и в свою очередь автоматическая оценка на основе LLM ограничена способностями оценщика LLM, то чтобы преодолеть эти проблемы, вводится подход к оценке ruIFEval, который стремится повысить быстроту, ясность и объективность автоматической оценки.
GitHub | Paper
Компания Recursal AI выпустила промежуточный отчёт об обучении EagleX (RWKV-v5) модели, в котором она обошла LLaMA 2 7b на некоторых бенчмарках.
Модель продолжают учить, но уже сейчас по мультиязычной перплексии модель обходит почти все остальные модели, и имеет очень хороший скор на winogrande и wnli. Это значит, что модель скорее всего будет неплохо работать на мультиязычном RAG. В glue у модели тоже подозрительно высокий счёт, авторы пишут, что проверили датасет на контаминированность и ничего не нашли.
Из забавного: авторы забыли добавить датасет с математикой в обучающую выборку, так что скоры там очень плохие. Добавили обратно, так что к выходу модели с ней станет получше.
Обещают к апрелю закончить обучение, прогнав через неё 2Т токенов и выпустить под пермиссивной лицензией Apache 2.0. В июле в планах обучить MoE модель, которая будет по качеству как GPT 3.5.
Как здорово, что кто-то развивает архитектуры, отличные от трансформеров!
👉 Пост с анонсом
👉 Huggingface
Модель продолжают учить, но уже сейчас по мультиязычной перплексии модель обходит почти все остальные модели, и имеет очень хороший скор на winogrande и wnli. Это значит, что модель скорее всего будет неплохо работать на мультиязычном RAG. В glue у модели тоже подозрительно высокий счёт, авторы пишут, что проверили датасет на контаминированность и ничего не нашли.
Из забавного: авторы забыли добавить датасет с математикой в обучающую выборку, так что скоры там очень плохие. Добавили обратно, так что к выходу модели с ней станет получше.
Обещают к апрелю закончить обучение, прогнав через неё 2Т токенов и выпустить под пермиссивной лицензией Apache 2.0. В июле в планах обучить MoE модель, которая будет по качеству как GPT 3.5.
Как здорово, что кто-то развивает архитектуры, отличные от трансформеров!
👉 Пост с анонсом
👉 Huggingface
Forwarded from GigaChat
This media is not supported in your browser
VIEW IN TELEGRAM
GigaChat отвечает за свои слова — на вопросы об исторических событиях и личностях сервис предоставляет информацию со ссылками на источники. Перейти по ним и прочитать подробнее можно прямо из ответа. Функция работает благодаря системе генерации на основе качественной поисковой выдачи GigaSearch.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ruMT-Bench: генеративный подход к оценке alignment для LLM на русском языке
Несколько месяцев назад мы реализовали генеративный подход к оценке чат версий моделей основанный на MT-Bench. Выкладываем также бенчмарк в открытый доступ. Несмотря на то, что MT-Bench адаптированный под русский язык уже выкладывали , мы делимся своей версией с тщательным переводом асессорами на русский язык, и демонстрируем возможности подхода для моделей доступных на русском языке.
ruMT-Bench содержит инструктивные multi-turn вопросы, разбитые по 8 различным областям знаний. GPT-4 оценивает ответы моделей по шкале от 1 до 10. Окончательная оценка определяется средним значением по всем репликам. Для некоторых сложных задач, требующих точного ответа (например, математика и код), в промт судьи (GPT-4) включается эталонный ответ, который помогает оценить ответы от модели. Замеры на корреляцию с оценками асессоров на lm-sys чат-бот арене показали [ссылка1,ссылка2], из которого следует вывод, что MT-Bench сильнее других бенчмарков на английском языке коррелирует с оценками людей.
GitHub | 🤗Huggingface
Несколько месяцев назад мы реализовали генеративный подход к оценке чат версий моделей основанный на MT-Bench. Выкладываем также бенчмарк в открытый доступ. Несмотря на то, что MT-Bench адаптированный под русский язык уже выкладывали , мы делимся своей версией с тщательным переводом асессорами на русский язык, и демонстрируем возможности подхода для моделей доступных на русском языке.
ruMT-Bench содержит инструктивные multi-turn вопросы, разбитые по 8 различным областям знаний. GPT-4 оценивает ответы моделей по шкале от 1 до 10. Окончательная оценка определяется средним значением по всем репликам. Для некоторых сложных задач, требующих точного ответа (например, математика и код), в промт судьи (GPT-4) включается эталонный ответ, который помогает оценить ответы от модели. Замеры на корреляцию с оценками асессоров на lm-sys чат-бот арене показали [ссылка1,ссылка2], из которого следует вывод, что MT-Bench сильнее других бенчмарков на английском языке коррелирует с оценками людей.
GitHub | 🤗Huggingface
Вот про наше детище рассказывает популярный блогер. Приятно. Спасибо!😊
Forwarded from Владилен про IT
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатный Copilot
Ловите небольшой подгон. Потому что, кто не знал, есть такой инструмент как GigaCode
И он позволяет встроить бесплатный ассистент по коду. В целом - удобно
Надо более расширенный материал или гайд как лучше пользоваться им?
👩💻 - да давай
👩💻 - и на этом спасибо, сами разберемся
Ловите небольшой подгон. Потому что, кто не знал, есть такой инструмент как GigaCode
И он позволяет встроить бесплатный ассистент по коду. В целом - удобно
Надо более расширенный материал или гайд как лучше пользоваться им?
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
CodeChat в GigaCode 🚀🚀🚀
CodeChat поможет оптимизировать или отрефакторить имеющийся код, сгенерировать тесты или документацию, а также объяснить или написать код под конкретную задачу. Задавайте вопросы как по всему открытому файлу, так и по определенному фрагменту кода — просто выделите его в редакторе и сформулируйте запрос к CodeChat.
CodeChat умеет отвечать на вопросы не только про код.
Просто обновите плагин в вашей IDE. Если еще не пробовали GigaCode то направляем вас сюда https://gigacode.ru
Чуть позже расскажем про метрики нашей CodeChat модели.
CodeChat поможет оптимизировать или отрефакторить имеющийся код, сгенерировать тесты или документацию, а также объяснить или написать код под конкретную задачу. Задавайте вопросы как по всему открытому файлу, так и по определенному фрагменту кода — просто выделите его в редакторе и сформулируйте запрос к CodeChat.
CodeChat умеет отвечать на вопросы не только про код.
Просто обновите плагин в вашей IDE. Если еще не пробовали GigaCode то направляем вас сюда https://gigacode.ru
Чуть позже расскажем про метрики нашей CodeChat модели.
Forwarded from Machinelearning
NLP Researchers, отметьте в календаре 26 октября🌟
Всего за один день вы сможете пройти все этапы отбора, познакомиться с командой GigaCode и получить оффер.
Мы создаем AI ассистента разработчика – GigaCode. Наши модели помогают писать 80к строк кода ежедневно! Решаем задачи по различным подходам в NLP и PLP, проводим ресёрч-эксперименты и обучаем новые SOTA LLM.
В работе используем: NLP, DL, ML, Python, Pytorch, Transformers, FSDP, Deepspeed.
Чем предстоит заниматься?
✅ реализовывать дизайн экспериментов, формулировать гипотезы для улучшения NLP/PLP моделей и алгоритмов, планировать исследовательские эксперименты с выводами.
✅ проводить эксперименты, писать код, подготавливать датасеты и бенчмарки, проводить замеры и анализ результатов.
✅ обучать модели на кластере, включая обучение моделей с нуля и дообучение опенсорс моделей.
Если вы амбициозны и готовы к новым вызовам в PLP и/или NLP направлениях, регистрируйтесь на One Day Offer!
Будем делать важнейшие исследования вместе!💚
Всего за один день вы сможете пройти все этапы отбора, познакомиться с командой GigaCode и получить оффер.
Мы создаем AI ассистента разработчика – GigaCode. Наши модели помогают писать 80к строк кода ежедневно! Решаем задачи по различным подходам в NLP и PLP, проводим ресёрч-эксперименты и обучаем новые SOTA LLM.
В работе используем: NLP, DL, ML, Python, Pytorch, Transformers, FSDP, Deepspeed.
Чем предстоит заниматься?
✅ реализовывать дизайн экспериментов, формулировать гипотезы для улучшения NLP/PLP моделей и алгоритмов, планировать исследовательские эксперименты с выводами.
✅ проводить эксперименты, писать код, подготавливать датасеты и бенчмарки, проводить замеры и анализ результатов.
✅ обучать модели на кластере, включая обучение моделей с нуля и дообучение опенсорс моделей.
Если вы амбициозны и готовы к новым вызовам в PLP и/или NLP направлениях, регистрируйтесь на One Day Offer!
Будем делать важнейшие исследования вместе!💚
Ищем таланты. Приходите к нам на one day offer. Если вас драйвит заниматься исследованиями и делать крутые модели для разработчиков, то давайте к нам!)
Forwarded from GigaDev — разработка GigaChat
Релиз Giga-Embeddings-instruct! (ссылка на hugging-face)
Мы выложили в открытый доступ эмбеддинг модель Giga-Embeddings-instruct.
Giga-Embeddings-instruct занимает 2-ое(*) место в бенчмарке ruMTEB. Следующая после нас модель это e5-mistral-7b-instruct, которая имеет в 3 раза больше параметров (~7Б у mistral, –2.5B у нас).
Размер контекста модели 4096. Более 60 различных источников данных были использованы для обучения модели. Модель можно использовать для всех типов дискриминативных задач – классификация, поиск, ранжирование, и т.д.
За основу мы взяли GigaChat-pretrain-3B, заменили внимание с decoder на encoder, в качестве агрегации использовали Latent Attention Pooling.
(*) Модель на первом месте пока не выложена в опенсорс на момент написания поста 27.12.
Мы выложили в открытый доступ эмбеддинг модель Giga-Embeddings-instruct.
Giga-Embeddings-instruct занимает 2-ое(*) место в бенчмарке ruMTEB. Следующая после нас модель это e5-mistral-7b-instruct, которая имеет в 3 раза больше параметров (~7Б у mistral, –2.5B у нас).
Размер контекста модели 4096. Более 60 различных источников данных были использованы для обучения модели. Модель можно использовать для всех типов дискриминативных задач – классификация, поиск, ранжирование, и т.д.
За основу мы взяли GigaChat-pretrain-3B, заменили внимание с decoder на encoder, в качестве агрегации использовали Latent Attention Pooling.
(*) Модель на первом месте пока не выложена в опенсорс на момент написания поста 27.12.
huggingface.co
ai-sage/Giga-Embeddings-instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Команда, спасибо! Новая точка отсчета для нашего канала.
Команда, я благадарен вам за исследовательскую атмосферу, за стремление создавать что-то полезное здесь и сейчас. За 4 года мы проделали огромный путь. В начале мы и представить не могли, каких результатов мы сумеем достичь. Много моделей нами было обучено, некоторые мы опубликовали в опенсорс (ruBert, ruRoberta, ruT5, ruGpt2, ruGpt3, FRED-T5), ряд бенчмарков выпустили, активно участвовали в GigaChat, ну и конечно GigaCode — наше детище. Команда, я бесконечно благодарен вам за вашу поддержку и вашу смелость. Большое счастье ощущать себя частью такой команды!
Время идет и все меняется. Друзья, подписчики, к сожалению, команды с таким именем в Сбере больше не существует. Большинство из нас объединены стремлением контрибьютить в опенсорс. Этот канал нас объединяет. В нем, как и раньше, будем делиться нашими мыслями, обзорами на пейперы и результами. Под именем NLP_Core_Team следует воспринимать как группу NLP энтузиастов, которые время от времени, в свободное от основной работы, что-то публикуют и делают для опенсорс.
Правда, последнее время мы мало писали в канал. Уж извините, были заняты другим)) Мы исправимся. Сейчас у меня времени сильно больше и куча желания делиться мыслями. Испытываю вдохновение перед новыми вызовами.
Будем считать, что у нашего канала новая точка отсчета вступая в новый год.
Друзья, всех с наступающим Новым Годом! Новых SOTA результатов, новых моделей, вдохновения на новые свершения, исследовательской смелости ну и конечно же здоровья!))🎄 🎄 🎄 🔥 🔥 🔥 🎉 🎉 🎉
Команда, я благадарен вам за исследовательскую атмосферу, за стремление создавать что-то полезное здесь и сейчас. За 4 года мы проделали огромный путь. В начале мы и представить не могли, каких результатов мы сумеем достичь. Много моделей нами было обучено, некоторые мы опубликовали в опенсорс (ruBert, ruRoberta, ruT5, ruGpt2, ruGpt3, FRED-T5), ряд бенчмарков выпустили, активно участвовали в GigaChat, ну и конечно GigaCode — наше детище. Команда, я бесконечно благодарен вам за вашу поддержку и вашу смелость. Большое счастье ощущать себя частью такой команды!
Время идет и все меняется. Друзья, подписчики, к сожалению, команды с таким именем в Сбере больше не существует. Большинство из нас объединены стремлением контрибьютить в опенсорс. Этот канал нас объединяет. В нем, как и раньше, будем делиться нашими мыслями, обзорами на пейперы и результами. Под именем NLP_Core_Team следует воспринимать как группу NLP энтузиастов, которые время от времени, в свободное от основной работы, что-то публикуют и делают для опенсорс.
Правда, последнее время мы мало писали в канал. Уж извините, были заняты другим)) Мы исправимся. Сейчас у меня времени сильно больше и куча желания делиться мыслями. Испытываю вдохновение перед новыми вызовами.
Будем считать, что у нашего канала новая точка отсчета вступая в новый год.
Друзья, всех с наступающим Новым Годом! Новых SOTA результатов, новых моделей, вдохновения на новые свершения, исследовательской смелости ну и конечно же здоровья!))
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥DeepSeek-V3
Немного запоздалый пост. Модель вышла как неделю. Привычно видеть выход новых открытых моделей, которые все выше и выше по метрикам. Но тут другое дело. Настал час, когда открытые модели уже по метрикам сильнее закрытых. DeepSeek V3 первая модель с топовыми метриками и с сильно дешевым инференсом от DeepSeek. Если GPT4o стоит $10 за 1M токенов на генерации то DeepSeek V3 стоит $1.1 а до 8 февраля $0.28.
Из ключевого о модели:
- Модель с архитектурой Mixture-of-Experts (MoE), содержащая 671 миллиард параметров, из которых активируется 37 миллиардов для каждого токена. 256 маршрутизируемых экспертов + 1 общий экспертов. Каждый токен активирует **8 маршрутезируемых экспертов.
- Использует Multi-head Latent Attention.
- Добавили Multi-Token Prediction что улучшает общую производительность на обучении и инференсе.
- Модель обучена на 14.8 триллионах токенов с FP8.
- Модель обучалась с добавлением Fill-in-Middle (FIM) задачи. Пишут что FIM не мешает задаче предикта следующего токена и улучшает метрики в кодовых тасках, где важен FIM.
- Сделали дистилляцию знаний из модели DeepSeek-R1 для улучшения способностей к рассуждению.
Модель по кодовым метрикам часто сильнее Claude 3.5 Sonnet, которая считается топовой для кода.
Потыкал DeepSeek на русском и я вам скажу она прям хорошо отвечает. Вообще не встретил каких-либо артифактов, которые свойственны моделям видевших русского мало. Сколько было русского у нее в претрейне неизвестно, но по метрикам MMMLU (Multiligual MMLU) она показала 79.4, что сильнее Llama 405B (73.8) и Qwen2.5 72B (74.8).
GitHub
Huggingface
Paper
Немного запоздалый пост. Модель вышла как неделю. Привычно видеть выход новых открытых моделей, которые все выше и выше по метрикам. Но тут другое дело. Настал час, когда открытые модели уже по метрикам сильнее закрытых. DeepSeek V3 первая модель с топовыми метриками и с сильно дешевым инференсом от DeepSeek. Если GPT4o стоит $10 за 1M токенов на генерации то DeepSeek V3 стоит $1.1 а до 8 февраля $0.28.
Из ключевого о модели:
- Модель с архитектурой Mixture-of-Experts (MoE), содержащая 671 миллиард параметров, из которых активируется 37 миллиардов для каждого токена. 256 маршрутизируемых экспертов + 1 общий экспертов. Каждый токен активирует **8 маршрутезируемых экспертов.
- Использует Multi-head Latent Attention.
- Добавили Multi-Token Prediction что улучшает общую производительность на обучении и инференсе.
- Модель обучена на 14.8 триллионах токенов с FP8.
- Модель обучалась с добавлением Fill-in-Middle (FIM) задачи. Пишут что FIM не мешает задаче предикта следующего токена и улучшает метрики в кодовых тасках, где важен FIM.
- Сделали дистилляцию знаний из модели DeepSeek-R1 для улучшения способностей к рассуждению.
Модель по кодовым метрикам часто сильнее Claude 3.5 Sonnet, которая считается топовой для кода.
Потыкал DeepSeek на русском и я вам скажу она прям хорошо отвечает. Вообще не встретил каких-либо артифактов, которые свойственны моделям видевших русского мало. Сколько было русского у нее в претрейне неизвестно, но по метрикам MMMLU (Multiligual MMLU) она показала 79.4, что сильнее Llama 405B (73.8) и Qwen2.5 72B (74.8).
GitHub
Huggingface
Paper
🔥SmallThinker-3B-Preview
Очень интересная модель получилась у PowerInfer. Взяли Qwen2.5-3b-Instruct и дообучили на двух сетах полученных в результате генераций моделей QwQ-32B-Preview и Qwen2.5-72b-instruct. С каждой из моделей получили 500к примеров и все на английском. Сначала дообучили на сете от QwQ 1.5 эпохи а после дообучали на обоих сетах 2 эпохи. По моим прикидкам совокупно дообучали до 20B токенов, что совсем не много. Получилась модель, которая очень даже не плохо рассуждает и отвечает особенно учитывая ее размер 3B.
Также можно использовать эту модель в качестве draft модели для модели QwQ 32b на инференсе в режиме speculative decoding, что позволяет ускорить инференс в 1.7 раза в сравнении с инференсом QwQ 32b.
На русском, как и QwQ, она отвечает, но часто вставляет токены из других языков. Вообще конечно интересно, что модель часто вставляя левые токены и при этом это ей не мешает рассуждать и приходить к верному решению.
Huggingface
Очень интересная модель получилась у PowerInfer. Взяли Qwen2.5-3b-Instruct и дообучили на двух сетах полученных в результате генераций моделей QwQ-32B-Preview и Qwen2.5-72b-instruct. С каждой из моделей получили 500к примеров и все на английском. Сначала дообучили на сете от QwQ 1.5 эпохи а после дообучали на обоих сетах 2 эпохи. По моим прикидкам совокупно дообучали до 20B токенов, что совсем не много. Получилась модель, которая очень даже не плохо рассуждает и отвечает особенно учитывая ее размер 3B.
Также можно использовать эту модель в качестве draft модели для модели QwQ 32b на инференсе в режиме speculative decoding, что позволяет ускорить инференс в 1.7 раза в сравнении с инференсом QwQ 32b.
На русском, как и QwQ, она отвечает, но часто вставляет токены из других языков. Вообще конечно интересно, что модель часто вставляя левые токены и при этом это ей не мешает рассуждать и приходить к верному решению.
Huggingface
Forwarded from AbstractDL
COCONUT: Учим LLM думать не словами, а эмбеддингами (by Meta)
С появлением моделей серии o1 от OpenAI интерес к "ризонингу" языковых моделей стал расти ещё быстрее. Давно было известно, что если попросить LLM поразмышлять шаг за шагом "вслух", то точность ответов повышается, это называется Chain-of-Thought (CoT). А вы сами-то пробовали с ходу умножать 10-значные числа? Я только в столбик умею "step-by-step" 😁
Так вот, постепенно появляются идеи, что человеческий язык не оптимален для размышлений (вспоминаем QuietSTAR), он их только ограничивает. Более того! Есть исследования, что и люди на самом-то деле не словами думают — языковой отдел в мозге практически не активен в моменты рассуждений.
Вот и авторы COCONUT предлагают цепочку мыслей генерировать не в виде текстовых токенов, а в виде эмбеддингов, которые рекуррентно скармливаются обратно в LLM. Это должно развязывать моделям руки и позволять думать в более абстрактных сущностях, а не конкретными токенами.
Обнаружилось, что у COCONUT появляется суперпозиция нескольких альтернативных логических цепочек, своего рода breadth-first-search внутри эмбеддингов. Это позволило моделям решать задачки на планирование и логику быстрее и точнее, чем при обычном текстовом CoT. Не на всех бенчмарках выросли метрики, но сама идея классная, лично я в масштабирование таких подходов верю больше, чем в рассуждения на обычном языке.
Но пока тут есть два серьёзных минуса:
1. Для файнтюнинга LLM в режиме COCONUT всё ещё нужны ground truth словесные цепочки рассуждений, которые потом дистиллируются в латенты постепенной заменой текстовых шагов на латентные.
2. Обучение жрёт много компьюта и памяти, т.к. по сути это рекуррентная модель, через которую нужно N раз пропустить градиенты насквозь.
P.S. Более подробный разбор можно почитать у Андрея Лукьяненко тут.
Статья, GitHub
С появлением моделей серии o1 от OpenAI интерес к "ризонингу" языковых моделей стал расти ещё быстрее. Давно было известно, что если попросить LLM поразмышлять шаг за шагом "вслух", то точность ответов повышается, это называется Chain-of-Thought (CoT). А вы сами-то пробовали с ходу умножать 10-значные числа? Я только в столбик умею "step-by-step" 😁
Так вот, постепенно появляются идеи, что человеческий язык не оптимален для размышлений (вспоминаем QuietSTAR), он их только ограничивает. Более того! Есть исследования, что и люди на самом-то деле не словами думают — языковой отдел в мозге практически не активен в моменты рассуждений.
Вот и авторы COCONUT предлагают цепочку мыслей генерировать не в виде текстовых токенов, а в виде эмбеддингов, которые рекуррентно скармливаются обратно в LLM. Это должно развязывать моделям руки и позволять думать в более абстрактных сущностях, а не конкретными токенами.
Обнаружилось, что у COCONUT появляется суперпозиция нескольких альтернативных логических цепочек, своего рода breadth-first-search внутри эмбеддингов. Это позволило моделям решать задачки на планирование и логику быстрее и точнее, чем при обычном текстовом CoT. Не на всех бенчмарках выросли метрики, но сама идея классная, лично я в масштабирование таких подходов верю больше, чем в рассуждения на обычном языке.
Но пока тут есть два серьёзных минуса:
1. Для файнтюнинга LLM в режиме COCONUT всё ещё нужны ground truth словесные цепочки рассуждений, которые потом дистиллируются в латенты постепенной заменой текстовых шагов на латентные.
2. Обучение жрёт много компьюта и памяти, т.к. по сути это рекуррентная модель, через которую нужно N раз пропустить градиенты насквозь.
P.S. Более подробный разбор можно почитать у Андрея Лукьяненко тут.
Статья, GitHub
🔥 DeepSeek R1
Новые открытые модели с ризонингом от DeepSeek, которые рядом по качествту с o1 и очень дешевым инференсом по api.
- DeepSeek-R1-Zero: Модель, обученная исключительно с помощью RL без предварительного SFT. Демонстрирует мощные способности к рассуждению, но сталкивается с проблемами, такими как низкая читаемость и смешение языков. Эта модель представляет интерес больше для исследователей. Оказывается без SFT и только с RL можно научить лучше решать задачи.
- DeepSeek-R1: Включает cold start, SFT и дополнительные этапы RL, что делает её более универсальной, читаемой и безопасной. Показывает результаты, сопоставимые с OpenAI-o1-1217 на задачах, требующих рассуждений.
- Список дообученных опенсорс моделей различных размеров (от 1.5B до 70B параметров) с использованием дистиляции знаний из DeepSeek-R1. Модели демонстрируют топовые метрики для соответствующих размеров.
DeepSeek-R1-Zero обучена только с применением RL. Модель DeepSeek-V3-Base использовалась как начальная точка. Обучение проводилось с помощью алгоритма Group Relative Policy Optimization (GRPO), который оптимизирует политику модели на основе групповых оценок вознаграждений. Использовалась rule-based reward model, которая оценивала правильность ответов (например, решение математических задач) и соблюдение формата вывода.
Интересно, что в процессе RL модель самостоятельно развивала сложные стратегии, такие как пересмотр и переоценка предыдущих шагов (рефлексия) и генерация длинных цепочек рассуждений. Это все без явного пробрасывания в процесс обучения этих знаний. В процессе RL сама пришла к выводу, что чтобы отвечать более правильно нужно больше рассуждать. На картинке есть график, как на протяжении RL обучения растет длина рассуждений в ответах.
DeepSeek-R1 обучена в несколько этапов:
1. Cold Start. Начальное дообучение модели DeepSeek-V3-Base с использованием небольшого набора данных, включающего примеры с длинными цепочками рассуждений .
2. Reasoning-Oriented Reinforcement Learning (RL, ориентированное на рассуждения). Модель обучалась также как и DeepSeek-R1-Zero с помощью алгоритма Group Relative Policy Optimization (GRPO) и rule-based reward model
3. Rejection Sampling and SFT. Модель дообучалась на отобранных данных (около 800,000 примеров), включая:
- Reasoning data: Задачи, требующие рассуждений (600,000 примеров). Использовали модель с предидущего этапа RL. Модель генерировала несколько ответов для каждого промпта, и только правильные и хорошо отформатированные ответы отбирались для дальнейшего обучения.
- Non-reasoning data: отобрали общие задачи из SFT датасета DeepSeek V3 такие как письмо, фактологический QA и перевод (200,000 примеров).
4. Ну и в конце RL для всех сценариев. Модель прошла дополнительный этап RL, направленный на улучшение её полезности и безопасности в различных сценариях.
GitHub
Paper
Новые открытые модели с ризонингом от DeepSeek, которые рядом по качествту с o1 и очень дешевым инференсом по api.
- DeepSeek-R1-Zero: Модель, обученная исключительно с помощью RL без предварительного SFT. Демонстрирует мощные способности к рассуждению, но сталкивается с проблемами, такими как низкая читаемость и смешение языков. Эта модель представляет интерес больше для исследователей. Оказывается без SFT и только с RL можно научить лучше решать задачи.
- DeepSeek-R1: Включает cold start, SFT и дополнительные этапы RL, что делает её более универсальной, читаемой и безопасной. Показывает результаты, сопоставимые с OpenAI-o1-1217 на задачах, требующих рассуждений.
- Список дообученных опенсорс моделей различных размеров (от 1.5B до 70B параметров) с использованием дистиляции знаний из DeepSeek-R1. Модели демонстрируют топовые метрики для соответствующих размеров.
DeepSeek-R1-Zero обучена только с применением RL. Модель DeepSeek-V3-Base использовалась как начальная точка. Обучение проводилось с помощью алгоритма Group Relative Policy Optimization (GRPO), который оптимизирует политику модели на основе групповых оценок вознаграждений. Использовалась rule-based reward model, которая оценивала правильность ответов (например, решение математических задач) и соблюдение формата вывода.
Интересно, что в процессе RL модель самостоятельно развивала сложные стратегии, такие как пересмотр и переоценка предыдущих шагов (рефлексия) и генерация длинных цепочек рассуждений. Это все без явного пробрасывания в процесс обучения этих знаний. В процессе RL сама пришла к выводу, что чтобы отвечать более правильно нужно больше рассуждать. На картинке есть график, как на протяжении RL обучения растет длина рассуждений в ответах.
DeepSeek-R1 обучена в несколько этапов:
1. Cold Start. Начальное дообучение модели DeepSeek-V3-Base с использованием небольшого набора данных, включающего примеры с длинными цепочками рассуждений .
2. Reasoning-Oriented Reinforcement Learning (RL, ориентированное на рассуждения). Модель обучалась также как и DeepSeek-R1-Zero с помощью алгоритма Group Relative Policy Optimization (GRPO) и rule-based reward model
3. Rejection Sampling and SFT. Модель дообучалась на отобранных данных (около 800,000 примеров), включая:
- Reasoning data: Задачи, требующие рассуждений (600,000 примеров). Использовали модель с предидущего этапа RL. Модель генерировала несколько ответов для каждого промпта, и только правильные и хорошо отформатированные ответы отбирались для дальнейшего обучения.
- Non-reasoning data: отобрали общие задачи из SFT датасета DeepSeek V3 такие как письмо, фактологический QA и перевод (200,000 примеров).
4. Ну и в конце RL для всех сценариев. Модель прошла дополнительный этап RL, направленный на улучшение её полезности и безопасности в различных сценариях.
GitHub
Paper