MLR-Copilot : Генерация исследовательских идей в машинном обучении
MLR-Copilot - это фреймворк, в которой LLM имитируют мыслительные процессы ресечера, разработанная для повышения производительности исследований в области машинного обучения за счет генерации и реализации исследовательских идей.
Все начинается с исследовательской работы, в ходе которой MLR-Copilot генерирует и проверяет эти идеи. В процессу участвует встроенный механизм обратной связи с человеком, что в совокупности помогает достичь реальных результатов исследования.
MLR-Copilot работает в три интегрированных этапа:
🟢 Генерация исследовательских идей: LLM-агенты генерируют исследовательские гипотезы и экспериментальные планы на основе предоставленных в качестве входных данных исследовательских работ.
🟢 Реализация эксперимента: преобразование экспериментальных планов в выполнимые эксперименты с использованием полученного кода прототипа и моделей.
🟢 Выполнение реализации: запускаются эксперименты с механизмами обратной связи от человека и итеративной отладки.
⚠️ MLR-Copilot работает только с онлайн-сервисами LLM ( OpenAI, Anthropic, Huggingface) в качестве агентов, для использования Вам будет необходим API-Key соответствующего сервиса.
https://www.arxiv.org/pdf/2408.14033
https://huggingface.co/spaces/du-lab/MLR-Copilot
https://colab.research.google.com/drive/1aMh94R1Nl6r0wTzRVJFzsx-S3pwadmFD?usp=sharing
https://github.com/du-nlp-lab/MLR-Copilot
👉 @bigdata_1
MLR-Copilot - это фреймворк, в которой LLM имитируют мыслительные процессы ресечера, разработанная для повышения производительности исследований в области машинного обучения за счет генерации и реализации исследовательских идей.
Все начинается с исследовательской работы, в ходе которой MLR-Copilot генерирует и проверяет эти идеи. В процессу участвует встроенный механизм обратной связи с человеком, что в совокупности помогает достичь реальных результатов исследования.
MLR-Copilot работает в три интегрированных этапа:
⚠️ MLR-Copilot работает только с онлайн-сервисами LLM ( OpenAI, Anthropic, Huggingface) в качестве агентов, для использования Вам будет необходим API-Key соответствующего сервиса.
https://www.arxiv.org/pdf/2408.14033
https://huggingface.co/spaces/du-lab/MLR-Copilot
https://colab.research.google.com/drive/1aMh94R1Nl6r0wTzRVJFzsx-S3pwadmFD?usp=sharing
https://github.com/du-nlp-lab/MLR-Copilot
👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
📌Открытый вебинар «MLFlow — полный контроль над ML-экспериментами»
📚Вы узнаете:
1️⃣ Что такое MLFlow и какие компоненты он содержит;
2️⃣ Как отслеживать и управлять экспериментами с помощью MLFlow;
3️⃣ Как интегрировать MLFlow в ваш ML-пайплайн и ускорить вывод моделей в продакшн;
4️⃣ Возможности MLFlow: трекинг экспериментов, управление моделями и воспроизводимость;
5️⃣ Как эффективно работать с артефактами и версиями моделей.
🎁 Проведём живую демонстрацию, где шаг за шагом внедрим MLFlow в ML-проект!
Спикер: Игорь Стурейко — PhD Physical and Mathematical Sciences и опытный руководитель команд.
📅 Дата: 27 февраля в 20:00 (мск)
🆓 Бесплатно. Вебинар в рамках курса «MLOps»
👉 Регистрация открыта: https://vk.cc/cIWVJ4
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
📚Вы узнаете:
1️⃣ Что такое MLFlow и какие компоненты он содержит;
2️⃣ Как отслеживать и управлять экспериментами с помощью MLFlow;
3️⃣ Как интегрировать MLFlow в ваш ML-пайплайн и ускорить вывод моделей в продакшн;
4️⃣ Возможности MLFlow: трекинг экспериментов, управление моделями и воспроизводимость;
5️⃣ Как эффективно работать с артефактами и версиями моделей.
🎁 Проведём живую демонстрацию, где шаг за шагом внедрим MLFlow в ML-проект!
Спикер: Игорь Стурейко — PhD Physical and Mathematical Sciences и опытный руководитель команд.
📅 Дата: 27 февраля в 20:00 (мск)
🆓 Бесплатно. Вебинар в рамках курса «MLOps»
👉 Регистрация открыта: https://vk.cc/cIWVJ4
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Mini-Omni
В данной работе представлена Mini-Omni — аудиобазированная сквозная модель для диалогового взаимодействия в реальном времени. Чтобы достичь этой возможности, мы предлагаем метод генерации речи, управляемый текстовыми инструкциями, а также стратегию batch-parallel во время инференса, что дополнительно повышает производительность. Наш метод также позволяет сохранить исходные языковые способности модели с минимальной деградацией, обеспечивая основу для создания других моделей с возможностями взаимодействия в реальном времени. Мы называем этот метод обучения "Любая модель может говорить" (*Any Model Can Talk*).
Кроме того, мы представляем VoiceAssistant-400K — датасет, предназначенный для дообучения моделей, оптимизированных для генерации речи. Насколько нам известно, Mini-Omni является первой полностью сквозной open-source моделью для взаимодействия с речью в реальном времени, открывая новые перспективы для будущих исследований.
https://huggingface.co/gpt-omni/mini-omni/tree/main
https://arxiv.org/abs/2408.16725
https://github.com/gpt-omni/mini-omni
👉 @bigdata_1
В данной работе представлена Mini-Omni — аудиобазированная сквозная модель для диалогового взаимодействия в реальном времени. Чтобы достичь этой возможности, мы предлагаем метод генерации речи, управляемый текстовыми инструкциями, а также стратегию batch-parallel во время инференса, что дополнительно повышает производительность. Наш метод также позволяет сохранить исходные языковые способности модели с минимальной деградацией, обеспечивая основу для создания других моделей с возможностями взаимодействия в реальном времени. Мы называем этот метод обучения "Любая модель может говорить" (*Any Model Can Talk*).
Кроме того, мы представляем VoiceAssistant-400K — датасет, предназначенный для дообучения моделей, оптимизированных для генерации речи. Насколько нам известно, Mini-Omni является первой полностью сквозной open-source моделью для взаимодействия с речью в реальном времени, открывая новые перспективы для будущих исследований.
https://huggingface.co/gpt-omni/mini-omni/tree/main
https://arxiv.org/abs/2408.16725
https://github.com/gpt-omni/mini-omni
👉 @bigdata_1
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
HunyuanVideo-I2V: настраиваемая модель преобразования изображений в видео на основе HunyuanVideo.
Единственная модель, которая может сравниться с Runway Gen-3 и Wan 2.1.
Генерации выглядит хорошо!
▪Github: https://github.com/Tencent/HunyuanVideo-I2V
▪HF: https://huggingface.co/tencent/HunyuanVideo-I2V
👉 @bigdata_1
Единственная модель, которая может сравниться с Runway Gen-3 и Wan 2.1.
Генерации выглядит хорошо!
▪Github: https://github.com/Tencent/HunyuanVideo-I2V
▪HF: https://huggingface.co/tencent/HunyuanVideo-I2V
👉 @bigdata_1
👍1👎1
🧠 Agentic Reward Modeling — новый подход к обучению LLM, который объединяет человеческие предпочтения с проверяемыми сигналами корректности (фактология и следование инструкциям) для более надежных и точных наград.
🔧 Реализован в виде агента RewardAgent, состоящего из:
- Маршрутизатора — решает, какие проверки запускать
- Агентов верификации — проверяют факты и выполнение инструкций
- Оценщика — объединяет результаты в финальную награду
📊 В экспериментах на GPT-4o-mini и Llama3–8B Instruct:
✅ Существенное улучшение по сравнению с базовой моделью вознаграждений (ArmoRM)
🔍 Проверка фактологии — через Google API и параметры LLM
🧾 Инструкции проверяются даже с помощью Python-кода
Blog: https://medium.com/@techsachin/agentic-reward-modeling-combine-human-preferences-with-verifiable-correctness-signals-for-reliable-76c408b3491c
Paper: https://arxiv.org/abs/2502.19328
Code: https://github.com/THU-KEG/Agentic-Reward-Modeling
👉 @bigdata_1
🔧 Реализован в виде агента RewardAgent, состоящего из:
- Маршрутизатора — решает, какие проверки запускать
- Агентов верификации — проверяют факты и выполнение инструкций
- Оценщика — объединяет результаты в финальную награду
📊 В экспериментах на GPT-4o-mini и Llama3–8B Instruct:
✅ Существенное улучшение по сравнению с базовой моделью вознаграждений (ArmoRM)
🔍 Проверка фактологии — через Google API и параметры LLM
🧾 Инструкции проверяются даже с помощью Python-кода
Blog: https://medium.com/@techsachin/agentic-reward-modeling-combine-human-preferences-with-verifiable-correctness-signals-for-reliable-76c408b3491c
Paper: https://arxiv.org/abs/2502.19328
Code: https://github.com/THU-KEG/Agentic-Reward-Modeling
👉 @bigdata_1
👍2
Подборка Telegram каналов для программистов
https://www.tgoop.com/bash_srv Bash Советы
https://www.tgoop.com/win_sysadmin Системный Администратор Windows
https://www.tgoop.com/lifeproger Жизнь программиста. Авторский канал.
https://www.tgoop.com/devopslib Библиотека девопса | DevOps, SRE, Sysadmin
https://www.tgoop.com/rabota1C_rus Вакансии для программистов 1С
Системное администрирование 📌
https://www.tgoop.com/sysadmin_girl Девочка Сисадмин
https://www.tgoop.com/srv_admin_linux Админские угодья
https://www.tgoop.com/linux_srv Типичный Сисадмин
https://www.tgoop.com/linux_odmin Linux: Системный администратор
https://www.tgoop.com/devops_star DevOps Star (Звезда Девопса)
https://www.tgoop.com/i_linux Системный администратор
https://www.tgoop.com/linuxchmod Linux
https://www.tgoop.com/sys_adminos Системный Администратор
https://www.tgoop.com/tipsysdmin Типичный Сисадмин (фото железа, было/стало)
https://www.tgoop.com/sysadminof Книги для админов, полезные материалы
https://www.tgoop.com/i_odmin Все для системного администратора
https://www.tgoop.com/i_odmin_book Библиотека Системного Администратора
https://www.tgoop.com/i_odmin_chat Чат системных администраторов
https://www.tgoop.com/i_DevOps DevOps: Пишем о Docker, Kubernetes и др.
https://www.tgoop.com/sysadminoff Новости Линукс Linux
1C разработка 📌
https://www.tgoop.com/odin1C_rus Cтатьи, курсы, советы, шаблоны кода 1С
https://www.tgoop.com/DevLab1C 1С:Предприятие 8
Программирование C++📌
https://www.tgoop.com/cpp_lib Библиотека C/C++ разработчика
https://www.tgoop.com/cpp_knigi Книги для программистов C/C++
https://www.tgoop.com/cpp_geek Учим C/C++ на примерах
Программирование Python 📌
https://www.tgoop.com/pythonofff Python академия. Учи Python быстро и легко🐍
https://www.tgoop.com/BookPython Библиотека Python разработчика
https://www.tgoop.com/python_real Python подборки на русском и английском
https://www.tgoop.com/python_360 Книги по Python Rus
Java разработка 📌
https://www.tgoop.com/BookJava Библиотека Java разработчика
https://www.tgoop.com/java_360 Книги по Java Rus
https://www.tgoop.com/java_geek Учим Java на примерах
GitHub Сообщество 📌
https://www.tgoop.com/Githublib Интересное из GitHub
Базы данных (Data Base) 📌
https://www.tgoop.com/database_info Все про базы данных
Мобильная разработка: iOS, Android 📌
https://www.tgoop.com/developer_mobila Мобильная разработка
https://www.tgoop.com/kotlin_lib Подборки полезного материала по Kotlin
Фронтенд разработка 📌
https://www.tgoop.com/frontend_1 Подборки для frontend разработчиков
https://www.tgoop.com/frontend_sovet Frontend советы, примеры и практика!
https://www.tgoop.com/React_lib Подборки по React js и все что с ним связано
Разработка игр 📌
https://www.tgoop.com/game_devv Все о разработке игр
Библиотеки 📌
https://www.tgoop.com/book_for_dev Книги для программистов Rus
https://www.tgoop.com/programmist_of Книги по программированию
https://www.tgoop.com/proglb Библиотека программиста
https://www.tgoop.com/bfbook Книги для программистов
https://www.tgoop.com/books_reserv Книги для программистов
БигДата, машинное обучение 📌
https://www.tgoop.com/bigdata_1 Data Science, Big Data, Machine Learning, Deep Learning
Программирование 📌
https://www.tgoop.com/bookflow Лекции, видеоуроки, доклады с IT конференций
https://www.tgoop.com/coddy_academy Полезные советы по программированию
https://www.tgoop.com/rust_lib Полезный контент по программированию на Rust
https://www.tgoop.com/golang_lib Библиотека Go (Golang) разработчика
https://www.tgoop.com/itmozg Программисты, дизайнеры, новости из мира IT
https://www.tgoop.com/php_lib Библиотека PHP программиста 👨🏼💻👩💻
https://www.tgoop.com/nodejs_lib Подборки по Node js и все что с ним связано
https://www.tgoop.com/ruby_lib Библиотека Ruby программиста
QA, тестирование 📌
https://www.tgoop.com/testlab_qa Библиотека тестировщика
Шутки программистов 📌
https://www.tgoop.com/itumor Шутки программистов
Защита, взлом, безопасность 📌
https://www.tgoop.com/thehaking Канал о кибербезопасности
https://www.tgoop.com/xakep_2 Хакер Free
Книги, статьи для дизайнеров 📌
https://www.tgoop.com/ux_web Статьи, книги для дизайнеров
Математика 📌
https://www.tgoop.com/Pomatematike Канал по математике
https://www.tgoop.com/phis_mat Обучающие видео, книги по Физике и Математике
Excel лайфхак📌
https://www.tgoop.com/Excel_lifehack
https://www.tgoop.com/tikon_1 Новости высоких технологий, науки и техники💡
https://www.tgoop.com/mir_teh Мир технологий (Technology World)
Вакансии 📌
https://www.tgoop.com/sysadmin_rabota Системный Администратор
https://www.tgoop.com/progjob Вакансии в IT
https://www.tgoop.com/bash_srv Bash Советы
https://www.tgoop.com/win_sysadmin Системный Администратор Windows
https://www.tgoop.com/lifeproger Жизнь программиста. Авторский канал.
https://www.tgoop.com/devopslib Библиотека девопса | DevOps, SRE, Sysadmin
https://www.tgoop.com/rabota1C_rus Вакансии для программистов 1С
Системное администрирование 📌
https://www.tgoop.com/sysadmin_girl Девочка Сисадмин
https://www.tgoop.com/srv_admin_linux Админские угодья
https://www.tgoop.com/linux_srv Типичный Сисадмин
https://www.tgoop.com/linux_odmin Linux: Системный администратор
https://www.tgoop.com/devops_star DevOps Star (Звезда Девопса)
https://www.tgoop.com/i_linux Системный администратор
https://www.tgoop.com/linuxchmod Linux
https://www.tgoop.com/sys_adminos Системный Администратор
https://www.tgoop.com/tipsysdmin Типичный Сисадмин (фото железа, было/стало)
https://www.tgoop.com/sysadminof Книги для админов, полезные материалы
https://www.tgoop.com/i_odmin Все для системного администратора
https://www.tgoop.com/i_odmin_book Библиотека Системного Администратора
https://www.tgoop.com/i_odmin_chat Чат системных администраторов
https://www.tgoop.com/i_DevOps DevOps: Пишем о Docker, Kubernetes и др.
https://www.tgoop.com/sysadminoff Новости Линукс Linux
1C разработка 📌
https://www.tgoop.com/odin1C_rus Cтатьи, курсы, советы, шаблоны кода 1С
https://www.tgoop.com/DevLab1C 1С:Предприятие 8
Программирование C++📌
https://www.tgoop.com/cpp_lib Библиотека C/C++ разработчика
https://www.tgoop.com/cpp_knigi Книги для программистов C/C++
https://www.tgoop.com/cpp_geek Учим C/C++ на примерах
Программирование Python 📌
https://www.tgoop.com/pythonofff Python академия. Учи Python быстро и легко🐍
https://www.tgoop.com/BookPython Библиотека Python разработчика
https://www.tgoop.com/python_real Python подборки на русском и английском
https://www.tgoop.com/python_360 Книги по Python Rus
Java разработка 📌
https://www.tgoop.com/BookJava Библиотека Java разработчика
https://www.tgoop.com/java_360 Книги по Java Rus
https://www.tgoop.com/java_geek Учим Java на примерах
GitHub Сообщество 📌
https://www.tgoop.com/Githublib Интересное из GitHub
Базы данных (Data Base) 📌
https://www.tgoop.com/database_info Все про базы данных
Мобильная разработка: iOS, Android 📌
https://www.tgoop.com/developer_mobila Мобильная разработка
https://www.tgoop.com/kotlin_lib Подборки полезного материала по Kotlin
Фронтенд разработка 📌
https://www.tgoop.com/frontend_1 Подборки для frontend разработчиков
https://www.tgoop.com/frontend_sovet Frontend советы, примеры и практика!
https://www.tgoop.com/React_lib Подборки по React js и все что с ним связано
Разработка игр 📌
https://www.tgoop.com/game_devv Все о разработке игр
Библиотеки 📌
https://www.tgoop.com/book_for_dev Книги для программистов Rus
https://www.tgoop.com/programmist_of Книги по программированию
https://www.tgoop.com/proglb Библиотека программиста
https://www.tgoop.com/bfbook Книги для программистов
https://www.tgoop.com/books_reserv Книги для программистов
БигДата, машинное обучение 📌
https://www.tgoop.com/bigdata_1 Data Science, Big Data, Machine Learning, Deep Learning
Программирование 📌
https://www.tgoop.com/bookflow Лекции, видеоуроки, доклады с IT конференций
https://www.tgoop.com/coddy_academy Полезные советы по программированию
https://www.tgoop.com/rust_lib Полезный контент по программированию на Rust
https://www.tgoop.com/golang_lib Библиотека Go (Golang) разработчика
https://www.tgoop.com/itmozg Программисты, дизайнеры, новости из мира IT
https://www.tgoop.com/php_lib Библиотека PHP программиста 👨🏼💻👩💻
https://www.tgoop.com/nodejs_lib Подборки по Node js и все что с ним связано
https://www.tgoop.com/ruby_lib Библиотека Ruby программиста
QA, тестирование 📌
https://www.tgoop.com/testlab_qa Библиотека тестировщика
Шутки программистов 📌
https://www.tgoop.com/itumor Шутки программистов
Защита, взлом, безопасность 📌
https://www.tgoop.com/thehaking Канал о кибербезопасности
https://www.tgoop.com/xakep_2 Хакер Free
Книги, статьи для дизайнеров 📌
https://www.tgoop.com/ux_web Статьи, книги для дизайнеров
Математика 📌
https://www.tgoop.com/Pomatematike Канал по математике
https://www.tgoop.com/phis_mat Обучающие видео, книги по Физике и Математике
Excel лайфхак📌
https://www.tgoop.com/Excel_lifehack
https://www.tgoop.com/tikon_1 Новости высоких технологий, науки и техники💡
https://www.tgoop.com/mir_teh Мир технологий (Technology World)
Вакансии 📌
https://www.tgoop.com/sysadmin_rabota Системный Администратор
https://www.tgoop.com/progjob Вакансии в IT
Telegram
Bash Советы
🚀 Секреты и советы по Bash
🔹 Полезные трюки, хитрые однострочники и лайфхаки для работы в терминале.
🔹 Автоматизация, скрипты и оптимизация работы в Linux.
🔹 Стать мастером Bash легко – просто подпишись!
💻 Прокачивай терминал вместе с нами! 👇
🔹 Полезные трюки, хитрые однострочники и лайфхаки для работы в терминале.
🔹 Автоматизация, скрипты и оптимизация работы в Linux.
🔹 Стать мастером Bash легко – просто подпишись!
💻 Прокачивай терминал вместе с нами! 👇
This media is not supported in your browser
VIEW IN TELEGRAM
Создаем собственного AI-помощника для кодинга в JupyterLab с использованием Ollama и Hugging Face
Недавно я исследовал возможности создания собственного AI-помощника для написания кода. Цель — иметь полноценного помощника, работающего локально, без зависимости от облака и внешних API.
Вот как я это сделал:
🧠 Что такое Ollama?
Ollama — это инструмент для локального запуска LLM (Large Language Models). Он поддерживает модели вроде
Пример установки и запуска:
После запуска вы можете взаимодействовать с моделью через CLI или REST API.
🤖 Интерфейс с JupyterLab
Теперь объединим Ollama с JupyterLab, чтобы создать AI-помощника, с которым можно взаимодействовать прямо в ноутбуке.
Установка расширения:
Устанавливаем
Настройка Ollama в Jupyter AI
Файл
Теперь ваш JupyterLab знает, куда отправлять запросы.
🚀 Использование в Jupyter
Теперь можно использовать магические команды:
Или вызвать помощника в чате справа от ноутбука.
🧩 Альтернатива: Hugging Face + Text Generation Inference
Если вы хотите использовать модели из Hugging Face — можно установить
Команда запуска:
В конфиге JupyterAI:
💡 Итоги
Теперь у вас есть полностью локальный AI-кодинг помощник, работающий в JupyterLab, без отправки данных в облако. Отличное решение для конфиденциальной работы, кастомизации и обучения.
https://towardsdatascience.com/build-your-own-ai-coding-assistant-in-jupyterlab-with-ollama-and-hugging-face/
👉 @bigdata_1
Недавно я исследовал возможности создания собственного AI-помощника для написания кода. Цель — иметь полноценного помощника, работающего локально, без зависимости от облака и внешних API.
Вот как я это сделал:
🧠 Что такое Ollama?
Ollama — это инструмент для локального запуска LLM (Large Language Models). Он поддерживает модели вроде
codellama
, llama2
, mistral
и другие. Всё работает на вашем компьютере, без необходимости обращаться к внешним сервисам.Пример установки и запуска:
curl -fsSL https://ollama.com/install.sh | sh
ollama run codellama
После запуска вы можете взаимодействовать с моделью через CLI или REST API.
🤖 Интерфейс с JupyterLab
Теперь объединим Ollama с JupyterLab, чтобы создать AI-помощника, с которым можно взаимодействовать прямо в ноутбуке.
Установка расширения:
Устанавливаем
jupyter-ai
, который интегрируется с LLM в Jupyter:
pip install jupyter-ai
jupyter labextension install @jupyterlab/ai-extension
jupyter ai init
Настройка Ollama в Jupyter AI
Файл
jupyter_ai_config.toml
:
[jupyter_ai]
default_provider = "ollama"
[jupyter_ai.providers.ollama]
url = "http://localhost:11434"
model = "codellama"
Теперь ваш JupyterLab знает, куда отправлять запросы.
🚀 Использование в Jupyter
Теперь можно использовать магические команды:
%%ai
Напиши функцию на Python, которая сортирует список по возрастанию.
Или вызвать помощника в чате справа от ноутбука.
🧩 Альтернатива: Hugging Face + Text Generation Inference
Если вы хотите использовать модели из Hugging Face — можно установить
text-generation-inference
, который поддерживает множество моделей, оптимизированных для inference.Команда запуска:
docker run --gpus all -p 8080:80 ghcr.io/huggingface/text-generation-inference \
--model-id bigcode/starcoder2 \
--quantize gptq
В конфиге JupyterAI:
[jupyter_ai.providers.huggingface_tgi]
url = "http://localhost:8080"
model = "bigcode/starcoder2"
💡 Итоги
Теперь у вас есть полностью локальный AI-кодинг помощник, работающий в JupyterLab, без отправки данных в облако. Отличное решение для конфиденциальной работы, кастомизации и обучения.
https://towardsdatascience.com/build-your-own-ai-coding-assistant-in-jupyterlab-with-ollama-and-hugging-face/
👉 @bigdata_1
👍8
OpenCharacter: обучение настраиваемых LLM для ролевого взаимодействия с использованием масштабных синтетических персон
Настраиваемое ролевое взаимодействие в больших языковых моделях (LLM) — это эффективный и экономичный способ разработки и внедрения агентов диалога с определёнными ролями. В данной работе исследуется подход масштабного синтеза данных, направленный на развитие у LLM способности к обобщению характеров.
Процесс начинается с синтеза крупномасштабных профилей персонажей с использованием базы Persona Hub, после чего рассматриваются две стратегии: переформулировка ответов и генерация ответов, чтобы создать ответы, соответствующие заданному персонажу.
Постановка задачи
i) Ролевое взаимодействие в рамках обучающей выборки (in-domain)
- Модель θ обучается (например, методом дообучения с учителем (SFT)) на диалогах с персонажами, в которых участвуют пользователь и определённый персонаж Cs. Диалоги могут быть вручную размечены или синтетическими.
ii) Ролевое взаимодействие вне обучающей выборки (out-of-domain)
- Требует, чтобы модель θ могла вести себя как новые персонажи Cx, отсутствующие в тренировочных данных.
- Чтобы добиться этого, модель должна обобщать на новые роли, что возможно при обучении на качественно подобранных данных с большим разнообразием персонажей, насыщенными профилями и качественными диалогами.
Обобщение персонажей через синтез данных
i) Синтез профилей персонажей
- Модель побуждают создать синтетический профиль персонажа на основе входной персоны, воображая следующие атрибуты: имя, возраст, пол, раса, место рождения, внешность, жизненный опыт и личность.
ii) Переформулировка ответов с учётом персонажа (OpenCharacter-R)
- Инструкции x из общедоступных наборов инструкций сохраняются, а оригинальный ответ y переписывается в yC, соответствующий стилю и биографии персонажа C.
iii) Генерация ответов с учётом персонажа (OpenCharacter-G)
- Модель побуждают сгенерировать ответ yC на инструкцию x, основываясь на профиле персонажа C.
- В отличие от OpenCharacter-R, который переписывает целую сессию диалога одним промптом, OpenCharacter-G работает пошагово, генерируя ответы по очереди для каждого обмена репликами.
Дообучение с учителем (Supervised Fine-Tuning)
- Для каждой сессии диалога случайным образом выбираются n синтетических персонажей C1, C2, ..., Cn из пула из M профилей, и синтезируются n пар «инструкция-ответ» вида (x, yC1 ), (x, yC2 ), ..., (x, yCn) путём переписывания или генерации.
- Все пары из разных персонажей объединяются и используются для SFT с моделью LLaMA-3 8B.
Результаты
- Лучшая модель усилила базовую LLaMA-3 8B Instruct и показала результаты, сопоставимые с GPT-4o в задачах ролевого взаимодействия в диалогах.
Paper: https://arxiv.org/abs/2501.15427
Dataset: https://huggingface.co/datasets/xywang1/OpenCharacter
👉 @bigdata_1
Настраиваемое ролевое взаимодействие в больших языковых моделях (LLM) — это эффективный и экономичный способ разработки и внедрения агентов диалога с определёнными ролями. В данной работе исследуется подход масштабного синтеза данных, направленный на развитие у LLM способности к обобщению характеров.
Процесс начинается с синтеза крупномасштабных профилей персонажей с использованием базы Persona Hub, после чего рассматриваются две стратегии: переформулировка ответов и генерация ответов, чтобы создать ответы, соответствующие заданному персонажу.
Постановка задачи
i) Ролевое взаимодействие в рамках обучающей выборки (in-domain)
- Модель θ обучается (например, методом дообучения с учителем (SFT)) на диалогах с персонажами, в которых участвуют пользователь и определённый персонаж Cs. Диалоги могут быть вручную размечены или синтетическими.
ii) Ролевое взаимодействие вне обучающей выборки (out-of-domain)
- Требует, чтобы модель θ могла вести себя как новые персонажи Cx, отсутствующие в тренировочных данных.
- Чтобы добиться этого, модель должна обобщать на новые роли, что возможно при обучении на качественно подобранных данных с большим разнообразием персонажей, насыщенными профилями и качественными диалогами.
Обобщение персонажей через синтез данных
i) Синтез профилей персонажей
- Модель побуждают создать синтетический профиль персонажа на основе входной персоны, воображая следующие атрибуты: имя, возраст, пол, раса, место рождения, внешность, жизненный опыт и личность.
ii) Переформулировка ответов с учётом персонажа (OpenCharacter-R)
- Инструкции x из общедоступных наборов инструкций сохраняются, а оригинальный ответ y переписывается в yC, соответствующий стилю и биографии персонажа C.
iii) Генерация ответов с учётом персонажа (OpenCharacter-G)
- Модель побуждают сгенерировать ответ yC на инструкцию x, основываясь на профиле персонажа C.
- В отличие от OpenCharacter-R, который переписывает целую сессию диалога одним промптом, OpenCharacter-G работает пошагово, генерируя ответы по очереди для каждого обмена репликами.
Дообучение с учителем (Supervised Fine-Tuning)
- Для каждой сессии диалога случайным образом выбираются n синтетических персонажей C1, C2, ..., Cn из пула из M профилей, и синтезируются n пар «инструкция-ответ» вида (x, yC1 ), (x, yC2 ), ..., (x, yCn) путём переписывания или генерации.
- Все пары из разных персонажей объединяются и используются для SFT с моделью LLaMA-3 8B.
Результаты
- Лучшая модель усилила базовую LLaMA-3 8B Instruct и показала результаты, сопоставимые с GPT-4o в задачах ролевого взаимодействия в диалогах.
Paper: https://arxiv.org/abs/2501.15427
Dataset: https://huggingface.co/datasets/xywang1/OpenCharacter
👉 @bigdata_1
🔥2👍1
🧩 Critique Fine-Tuning (CFT): новая парадигма обучения LLM
Вместо классического Supervised Fine-Tuning (SFT), где модель учится имитировать «правильные» ответы, авторы предлагают Critique Fine-Tuning (CFT) — обучение через генерацию критики к шумным (и часто ошибочным) ответам.
🔬 Суть подхода:
- Вход:
- Цель: сгенерировать содержательную критику c
- Модель обучается анализировать, а не повторять
📦 Данные:
🔹 WebInstruct-CFT (50K) — критику сгенерировал GPT-4o к оригинальным, часто ошибочным ответам
🔹 Также сформированы baseline-наборы:
-
-
-
Дополнительно:
-
- Сгенерированы критики к MetaMathQA и NuminaMath
🧠 Обучение:
Модели: Qwen2.5, Qwen2.5-Math, DeepSeekMath (7B и 32B)
Обучение — генерация критики, а не ответов
Формат:
📈 Результаты:
7B модели:
-
-
32B модели:
-
🔗 Ресурсы:
- 📄 Blog
- 🛠️ Paper
- 📊 Code
- 📝 Dataset
CFT показывает, что генерация критики — мощный способ учить модели анализу и обоснованности, а не только подражанию. Подход уже сегодня улучшает производительность на математических задачах с ограниченным количеством данных.
👉 @bigdata_1
Вместо классического Supervised Fine-Tuning (SFT), где модель учится имитировать «правильные» ответы, авторы предлагают Critique Fine-Tuning (CFT) — обучение через генерацию критики к шумным (и часто ошибочным) ответам.
🔬 Суть подхода:
- Вход:
(инструкция x + ответ y)
- Цель: сгенерировать содержательную критику c
- Модель обучается анализировать, а не повторять
📦 Данные:
🔹 WebInstruct-CFT (50K) — критику сгенерировал GPT-4o к оригинальным, часто ошибочным ответам
🔹 Также сформированы baseline-наборы:
-
WebInstruct-SFT
(ошибочные ответы, 50K)-
WebInstruct-verified
(вручную верифицированные GPT-4o, 50K)-
WebInstruct-GPT-4o
(ответы от GPT-4o, 50K)Дополнительно:
-
WebInstruct-CFT-Tiny
(4K) — для экономного fine-tuning моделей 32B- Сгенерированы критики к MetaMathQA и NuminaMath
🧠 Обучение:
Модели: Qwen2.5, Qwen2.5-Math, DeepSeekMath (7B и 32B)
Обучение — генерация критики, а не ответов
Формат:
concat(x, y) → c
📈 Результаты:
7B модели:
-
Qwen2.5-Math-7B (base)
→ 37.8% avg accuracy-
+CFT
→ 56.0% — лучший результат среди 7B32B модели:
-
Qwen2.5–32B-Instruct-CFT (4K)
превзошла Sky-T1–32B-Preview (17K)🔗 Ресурсы:
- 📄 Blog
- 🛠️ Paper
- 📊 Code
- 📝 Dataset
CFT показывает, что генерация критики — мощный способ учить модели анализу и обоснованности, а не только подражанию. Подход уже сегодня улучшает производительность на математических задачах с ограниченным количеством данных.
👉 @bigdata_1
👍3
EvalPlanner: модель Thinking-LLM-as-a-Judge, которая учится думать путём планирования и рассуждения при оценке
Модели LLM-as-a-Judge (LLM в роли судьи) генерируют цепочки рассуждений (Chain-of-Thought, CoT), отражающие пошаговый процесс размышлений, лежащий в основе финальной оценки ответа. Однако отсутствие размеченных вручную цепочек CoT затрудняет обучение таких моделей.
Чтобы решить эту проблему, в данной работе представлена EvalPlanner — алгоритм оптимизации предпочтений для Thinking-LLM-as-a-Judge. Он сначала генерирует неограниченный план оценки, затем исполняет его, и только потом выносит итоговый вердикт.
Компоненты
EvalPlanner предполагает, что эффективная цепочка рассуждений для оценки должна состоять из трёх компонентов:
1. План оценки z
— Для данной инструкции план задаёт рецепт оценки предложенных ответов на инструкцию.
2. Исполнение плана
— Отвечает за пошаговое проведение оценки по плану, анализируя пару ответов (a и b) и формируя итоговое суждение y.
3. Итоговый вердикт
— При использовании LLM в роли судьи, параметризованной θ, план z и исполнение e считаются скрытыми переменными.
Генерация синтетических обучающих данных
1. Выбираются общие инструкции и задачи на математическое рассуждение, и генерируются пары ответов.
2. Создаётся универсальный и неограниченный промпт для генерации плана, который задаётся модели-источнику, основываясь только на инструкции.
3. Та же модель-источник используется для выполнения плана на основе инструкции и пары ответов с целью получения вердикта.
4. Формируются пары предпочтений между планами и их исполнениями.
Оптимизация предпочтений планов и исполнений
Включает цикл самообучения:
- Начинается с модели-источника, на которой проводится SFT (Supervised Fine-Tuning) на подмножестве «выбранных» CoT, чтобы получить модель \( M₁^{SFT} \).
- Затем выполняются две итерации Direct Preference Optimization (DPO) на парах предпочтений CoT, в результате чего получаются модели \( M₁^{DPO} \) и \( M₂^{DPO} \).
Результаты
- EvalPlanner достигает нового SOTA (state-of-the-art) результата для генеративных reward-моделей на бенчмарке RewardBench (со счётом 93.9), несмотря на меньшее количество и синтетическую природу пар предпочтений.
- Планы EvalPlanner адаптированы под конкретную инструкцию, эффективны с точки зрения данных и выигрывают от итеративной оптимизации рассуждений.
- 📄 Blog
- 🛠️ Paper
👉 @bigdata_1
Модели LLM-as-a-Judge (LLM в роли судьи) генерируют цепочки рассуждений (Chain-of-Thought, CoT), отражающие пошаговый процесс размышлений, лежащий в основе финальной оценки ответа. Однако отсутствие размеченных вручную цепочек CoT затрудняет обучение таких моделей.
Чтобы решить эту проблему, в данной работе представлена EvalPlanner — алгоритм оптимизации предпочтений для Thinking-LLM-as-a-Judge. Он сначала генерирует неограниченный план оценки, затем исполняет его, и только потом выносит итоговый вердикт.
Компоненты
EvalPlanner предполагает, что эффективная цепочка рассуждений для оценки должна состоять из трёх компонентов:
1. План оценки z
— Для данной инструкции план задаёт рецепт оценки предложенных ответов на инструкцию.
2. Исполнение плана
— Отвечает за пошаговое проведение оценки по плану, анализируя пару ответов (a и b) и формируя итоговое суждение y.
3. Итоговый вердикт
— При использовании LLM в роли судьи, параметризованной θ, план z и исполнение e считаются скрытыми переменными.
Генерация синтетических обучающих данных
1. Выбираются общие инструкции и задачи на математическое рассуждение, и генерируются пары ответов.
2. Создаётся универсальный и неограниченный промпт для генерации плана, который задаётся модели-источнику, основываясь только на инструкции.
3. Та же модель-источник используется для выполнения плана на основе инструкции и пары ответов с целью получения вердикта.
4. Формируются пары предпочтений между планами и их исполнениями.
Оптимизация предпочтений планов и исполнений
Включает цикл самообучения:
- Начинается с модели-источника, на которой проводится SFT (Supervised Fine-Tuning) на подмножестве «выбранных» CoT, чтобы получить модель \( M₁^{SFT} \).
- Затем выполняются две итерации Direct Preference Optimization (DPO) на парах предпочтений CoT, в результате чего получаются модели \( M₁^{DPO} \) и \( M₂^{DPO} \).
Результаты
- EvalPlanner достигает нового SOTA (state-of-the-art) результата для генеративных reward-моделей на бенчмарке RewardBench (со счётом 93.9), несмотря на меньшее количество и синтетическую природу пар предпочтений.
- Планы EvalPlanner адаптированы под конкретную инструкцию, эффективны с точки зрения данных и выигрывают от итеративной оптимизации рассуждений.
- 📄 Blog
- 🛠️ Paper
👉 @bigdata_1
👍1
⚡️Хотите стать востребованным экспертом в области рекомендательных систем?
Курс OTUS «Рекомендательные системы» — это практические занятия, живые лекции от ведущих DS/ML-специалистов и актуальные инструменты, которые используют крупнейшие компании. Вы научитесь создавать персонализированные рекомендации, внедрять системы под задачи e-commerce и стриминговых сервисов, эффективно сегментировать пользователей и проводить A/B-тесты.
После курса вы сможете реализовывать решения, которые принесут пользу бизнесу.
👉Оставьте заявку и получите скидку на обучение: https://vk.cc/cKTBkL
Курс OTUS «Рекомендательные системы» — это практические занятия, живые лекции от ведущих DS/ML-специалистов и актуальные инструменты, которые используют крупнейшие компании. Вы научитесь создавать персонализированные рекомендации, внедрять системы под задачи e-commerce и стриминговых сервисов, эффективно сегментировать пользователей и проводить A/B-тесты.
После курса вы сможете реализовывать решения, которые принесут пользу бизнесу.
👉Оставьте заявку и получите скидку на обучение: https://vk.cc/cKTBkL
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
🖼️ Describe Anything (DAM) — новая модель от NVIDIA и UC Berkeley, способная создавать подробные описания выбранных областей на изображениях и видео.
🔍 Что делает DAM?
• Генерирует детальные описания для указанных пользователем областей (точки, рамки, маски, штрихи) на изображениях и видео.
• Адаптируется к стилю и детализации описания по инструкции пользователя.
• Отвечает на вопросы о выделенных областях без дополнительного обучения.
🧠 Как это работает?
• Использует “focal prompt” — сочетание общего изображения и увеличенной области интереса.
• Интегрирует локальные и глобальные признаки через специализированную архитектуру.
• Обучена с помощью полусупервизируемого пайплайна DLC-SDP, расширяющего существующие датасеты.
📊 Почему это важно?
• Устанавливает новые стандарты в задачах детализированного описания изображений и видео.
• Превосходит предыдущие модели на 7 бенчмарках, включая PACO и Flickr30k Entities.
• Открытый код, модели и данные доступны для сообщества.
🔗 Подробнее: https://describe-anything.github.io/
Демо: https://huggingface.co/spaces/nvidia/describe-anything-model-demo
Код: https://github.com/NVlabs/describe-anything
👉 @bigdata_1
🔍 Что делает DAM?
• Генерирует детальные описания для указанных пользователем областей (точки, рамки, маски, штрихи) на изображениях и видео.
• Адаптируется к стилю и детализации описания по инструкции пользователя.
• Отвечает на вопросы о выделенных областях без дополнительного обучения.
🧠 Как это работает?
• Использует “focal prompt” — сочетание общего изображения и увеличенной области интереса.
• Интегрирует локальные и глобальные признаки через специализированную архитектуру.
• Обучена с помощью полусупервизируемого пайплайна DLC-SDP, расширяющего существующие датасеты.
📊 Почему это важно?
• Устанавливает новые стандарты в задачах детализированного описания изображений и видео.
• Превосходит предыдущие модели на 7 бенчмарках, включая PACO и Flickr30k Entities.
• Открытый код, модели и данные доступны для сообщества.
🔗 Подробнее: https://describe-anything.github.io/
Демо: https://huggingface.co/spaces/nvidia/describe-anything-model-demo
Код: https://github.com/NVlabs/describe-anything
👉 @bigdata_1
👍2
🛠️ UTGEN + UTDEBUG: обучаем LLM генерировать модульные тесты для автоматической отладки кода
Модульные тесты помогают LLM исправлять ошибки в коде. Но сложно одновременно подобрать тесты к багованному коду и правильно предсказать ожидаемый результат без эталона.
Решение: UTGEN учит LLM генерировать входы и правильные выходы тестов на основе описания задачи и кода-кандидата.
+ UTDEBUG — пайплайн отладки, который использует эти тесты, чтобы повышать качество исправлений.
Как работает:
- Портят эталонный код → создают баги.
- Генерируют тесты, оставляя только те, что выявляют ошибки.
- Добавляют цепочки рассуждений (CoT) к тестам.
- При отладке используют голосование по нескольким ответам и откат, если изменения не улучшают процент прохождения тестов.
Результаты:
- UTGEN лучше базовых методов на +7.59%.
- С UTDEBUG модель Qwen-2.5 7B показывает рост pass@1 на +3% (HumanEval-Fix) и +12.35% (MBPP+).
Blog https://medium.com/@techsachin/teaching-llms-to-generate-unit-tests-for-automated-debugging-of-code-78c62778e4b2
Paper https://arxiv.org/abs/2502.01619
Code https://github.com/archiki/UTGenDebug
👉 @bigdata_1
Модульные тесты помогают LLM исправлять ошибки в коде. Но сложно одновременно подобрать тесты к багованному коду и правильно предсказать ожидаемый результат без эталона.
Решение: UTGEN учит LLM генерировать входы и правильные выходы тестов на основе описания задачи и кода-кандидата.
+ UTDEBUG — пайплайн отладки, который использует эти тесты, чтобы повышать качество исправлений.
Как работает:
- Портят эталонный код → создают баги.
- Генерируют тесты, оставляя только те, что выявляют ошибки.
- Добавляют цепочки рассуждений (CoT) к тестам.
- При отладке используют голосование по нескольким ответам и откат, если изменения не улучшают процент прохождения тестов.
Результаты:
- UTGEN лучше базовых методов на +7.59%.
- С UTDEBUG модель Qwen-2.5 7B показывает рост pass@1 на +3% (HumanEval-Fix) и +12.35% (MBPP+).
Blog https://medium.com/@techsachin/teaching-llms-to-generate-unit-tests-for-automated-debugging-of-code-78c62778e4b2
Paper https://arxiv.org/abs/2502.01619
Code https://github.com/archiki/UTGenDebug
👉 @bigdata_1
👍2
❔Хотите узнать, как популярные приложения угадывают ваши предпочтения? Матричная факторизация — мощный подход для построения рекомендаций.
На открытом вебинаре 30 апреля в 20:00 МСК вы разберетесь с принципами работы моделей матричной факторизации (SVD, ALS), поймёте, как реализовать их на Python с помощью библиотеки implicit и получите практические навыки, которые сразу сможете применить.
После занятия вы сможете создавать эффективные рекомендательные системы и использовать потенциал данных вашего бизнеса для персонализированных решений.
⚡️Регистрируйтесь на открытый урок и получите скидку на программу обучения «Рекомендательные системы»: https://vk.cc/cLe0ky
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
На открытом вебинаре 30 апреля в 20:00 МСК вы разберетесь с принципами работы моделей матричной факторизации (SVD, ALS), поймёте, как реализовать их на Python с помощью библиотеки implicit и получите практические навыки, которые сразу сможете применить.
После занятия вы сможете создавать эффективные рекомендательные системы и использовать потенциал данных вашего бизнеса для персонализированных решений.
⚡️Регистрируйтесь на открытый урок и получите скидку на программу обучения «Рекомендательные системы»: https://vk.cc/cLe0ky
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Atropos — RL Gym для LLM от Nous Research
Atropos — это серия мощных, специализированных моделей LLM, разработанных Nous Research. Она построена на базе архитектуры Mixtral и была обучена с нуля с использованием 4 триллионов токенов данных высокого качества. В серии представлены как полные модели, так и чаты, доступные в формате 7B, с открытым доступом к весам.
Модели Atropos предназначены для генерации, рассуждения, программирования и работы с документами, а также для общения в стиле чата. Они могут использоваться как для задач с одним токеном, так и для сложных задач, требующих многошагового мышления.
https://nousresearch.com/introducing-atropos/
https://github.com/NousResearch/Atropos
👉 @bigdata_1
Atropos — это серия мощных, специализированных моделей LLM, разработанных Nous Research. Она построена на базе архитектуры Mixtral и была обучена с нуля с использованием 4 триллионов токенов данных высокого качества. В серии представлены как полные модели, так и чаты, доступные в формате 7B, с открытым доступом к весам.
Модели Atropos предназначены для генерации, рассуждения, программирования и работы с документами, а также для общения в стиле чата. Они могут использоваться как для задач с одним токеном, так и для сложных задач, требующих многошагового мышления.
https://nousresearch.com/introducing-atropos/
https://github.com/NousResearch/Atropos
👉 @bigdata_1
👍5
🧠 ThinkPRM: Новый стандарт в верификации решений через Chain-of-Thought
🤖 Верификаторы пошаговых рассуждений (PRMs) — мощный инструмент масштабирования проверки решений на этапе инференса. Но их обучение требует дорогостоящей покадровой разметки.
🔍 Представляем ThinkPRM — data-efficient PRM, который генерирует цепочку верификации (Chain-of-Thought) для каждого шага решения, опираясь на всего 1% меток из PRM800K — и при этом превосходит LLM-as-a-Judge и дискриминативные PRM.
❗️Что не так с LLM-as-a-Judge:
* чувствительность к формулировке инструкции
* ошибки в логике и невалидные итоговые решения
* неправильный формат ответа
* зацикливание и “overthinking”, приводящее к превышению лимита токенов
🧪 Метод ThinkPRM:
1️⃣ Синтетические данные:
* Модель QwQ-32B-Preview генерирует цепочки верификации
* Отбираются только те, где шаги соответствуют PRM800K и укладываются в токен-бюджет
2️⃣ Обучение на 1K цепочках:
* Модель тонко настраивается на выбранных верификациях
* Тестируется на ProcessBench и сравнивается с LLM-as-a-Judge
📊 Результаты:
* 🔝 ThinkPRM превосходит базовые модели на ProcessBench, MATH-500 и AIME’24
* 🧬 На GPQA-Diamond и LiveCodeBench — выигрывает у дискриминативных моделей на 8% и 4.5%
* 📈 При том же токен-бюджете ThinkPRM эффективнее масштабирует верификацию, +7.2% на ProcessBench
💡 ThinkPRM показывает, что меньшее — значит умнее.
Настраивай, не размечай.
Проверяй умно, шаг за шагом.
✅ Blog: https://medium.com/@techsachin/thinkprm-generative-process-reward-model-for-solution-verification-via-long-cot-reasoning-2016f1e1387d
✅ Paper: https://arxiv.org/abs/2504.16828
✅ Dataset: https://huggingface.co/datasets/launch/thinkprm-1K-verification-cots
✅ Models:
- ThinkPRM-14B: https://huggingface.co/launch/ThinkPRM-14B
- ThinkPRM-1.5B: https://huggingface.co/launch/ThinkPRM-1.5B
👉 @bigdata_1
🤖 Верификаторы пошаговых рассуждений (PRMs) — мощный инструмент масштабирования проверки решений на этапе инференса. Но их обучение требует дорогостоящей покадровой разметки.
🔍 Представляем ThinkPRM — data-efficient PRM, который генерирует цепочку верификации (Chain-of-Thought) для каждого шага решения, опираясь на всего 1% меток из PRM800K — и при этом превосходит LLM-as-a-Judge и дискриминативные PRM.
❗️Что не так с LLM-as-a-Judge:
* чувствительность к формулировке инструкции
* ошибки в логике и невалидные итоговые решения
* неправильный формат ответа
* зацикливание и “overthinking”, приводящее к превышению лимита токенов
🧪 Метод ThinkPRM:
1️⃣ Синтетические данные:
* Модель QwQ-32B-Preview генерирует цепочки верификации
* Отбираются только те, где шаги соответствуют PRM800K и укладываются в токен-бюджет
2️⃣ Обучение на 1K цепочках:
* Модель тонко настраивается на выбранных верификациях
* Тестируется на ProcessBench и сравнивается с LLM-as-a-Judge
📊 Результаты:
* 🔝 ThinkPRM превосходит базовые модели на ProcessBench, MATH-500 и AIME’24
* 🧬 На GPQA-Diamond и LiveCodeBench — выигрывает у дискриминативных моделей на 8% и 4.5%
* 📈 При том же токен-бюджете ThinkPRM эффективнее масштабирует верификацию, +7.2% на ProcessBench
💡 ThinkPRM показывает, что меньшее — значит умнее.
Настраивай, не размечай.
Проверяй умно, шаг за шагом.
✅ Blog: https://medium.com/@techsachin/thinkprm-generative-process-reward-model-for-solution-verification-via-long-cot-reasoning-2016f1e1387d
✅ Paper: https://arxiv.org/abs/2504.16828
✅ Dataset: https://huggingface.co/datasets/launch/thinkprm-1K-verification-cots
✅ Models:
- ThinkPRM-14B: https://huggingface.co/launch/ThinkPRM-14B
- ThinkPRM-1.5B: https://huggingface.co/launch/ThinkPRM-1.5B
👉 @bigdata_1
❤1👍1
🧑🏻💻Как улучшить точность рекомендаций в своих проектах?
На открытом вебинаре 12 мая в 20:00 МСК вы узнаете, как работает обучение ранжированию, что такое функции потерь и как они влияют на качество рекомендаций. Понимание этих функций — ключ к эффективному предсказанию предпочтений пользователей.
Освойте практику на реальных данных с использованием модели BPRMF и получите ценные знания, которые помогут улучшить ваши результаты.
⚡️Присоединяйтесь к открытому уроку и получите скидку на программу обучения «Рекомендательные системы»: https://vk.cc/cLEzhI
На открытом вебинаре 12 мая в 20:00 МСК вы узнаете, как работает обучение ранжированию, что такое функции потерь и как они влияют на качество рекомендаций. Понимание этих функций — ключ к эффективному предсказанию предпочтений пользователей.
Освойте практику на реальных данных с использованием модели BPRMF и получите ценные знания, которые помогут улучшить ваши результаты.
⚡️Присоединяйтесь к открытому уроку и получите скидку на программу обучения «Рекомендательные системы»: https://vk.cc/cLEzhI
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
👍1