971 - Telegram Web

Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
971 - Telegram Web

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

MLR-Copilot : Генерация исследовательских идей в машинном обучении

MLR-Copilot - это фреймворк, в которой LLM имитируют мыслительные процессы ресечера, разработанная для повышения производительности исследований в области машинного обучения за счет генерации и реализации исследовательских идей.

Все начинается с исследовательской работы, в ходе которой MLR-Copilot генерирует и проверяет эти идеи. В процессу участвует встроенный механизм обратной связи с человеком, что в совокупности помогает достичь реальных результатов исследования.

MLR-Copilot работает в три интегрированных этапа:

🟢Генерация исследовательских идей: LLM-агенты генерируют исследовательские гипотезы и экспериментальные планы на основе предоставленных в качестве входных данных исследовательских работ.

🟢Реализация эксперимента: преобразование экспериментальных планов в выполнимые эксперименты с использованием полученного кода прототипа и моделей.

🟢Выполнение реализации: запускаются эксперименты с механизмами обратной связи от человека и итеративной отладки.

⚠️ MLR-Copilot работает только с онлайн-сервисами LLM ( OpenAI, Anthropic, Huggingface) в качестве агентов, для использования Вам будет необходим API-Key соответствующего сервиса.

https://www.arxiv.org/pdf/2408.14033

https://huggingface.co/spaces/du-lab/MLR-Copilot

https://colab.research.google.com/drive/1aMh94R1Nl6r0wTzRVJFzsx-S3pwadmFD?usp=sharing

https://github.com/du-nlp-lab/MLR-Copilot

👉 @bigdata_1

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

1.1K views19:02

📌Открытый вебинар «MLFlow — полный контроль над ML-экспериментами»

📚Вы узнаете:
1️⃣ Что такое MLFlow и какие компоненты он содержит;
2️⃣ Как отслеживать и управлять экспериментами с помощью MLFlow;
3️⃣ Как интегрировать MLFlow в ваш ML-пайплайн и ускорить вывод моделей в продакшн;
4️⃣ Возможности MLFlow: трекинг экспериментов, управление моделями и воспроизводимость;
5️⃣ Как эффективно работать с артефактами и версиями моделей.

🎁 Проведём живую демонстрацию, где шаг за шагом внедрим MLFlow в ML-проект!

Спикер: Игорь Стурейко — PhD Physical and Mathematical Sciences и опытный руководитель команд.

📅 Дата: 27 февраля в 20:00 (мск)
🆓 Бесплатно. Вебинар в рамках курса «MLOps»

👉 Регистрация открыта: https://vk.cc/cIWVJ4

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

1.23K views08:05

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Mini-Omni

В данной работе представлена Mini-Omni — аудиобазированная сквозная модель для диалогового взаимодействия в реальном времени. Чтобы достичь этой возможности, мы предлагаем метод генерации речи, управляемый текстовыми инструкциями, а также стратегию batch-parallel во время инференса, что дополнительно повышает производительность. Наш метод также позволяет сохранить исходные языковые способности модели с минимальной деградацией, обеспечивая основу для создания других моделей с возможностями взаимодействия в реальном времени. Мы называем этот метод обучения "Любая модель может говорить" (*Any Model Can Talk*).

Кроме того, мы представляем VoiceAssistant-400K — датасет, предназначенный для дообучения моделей, оптимизированных для генерации речи. Насколько нам известно, Mini-Omni является первой полностью сквозной open-source моделью для взаимодействия с речью в реальном времени, открывая новые перспективы для будущих исследований.

https://huggingface.co/gpt-omni/mini-omni/tree/main

https://arxiv.org/abs/2408.16725

https://github.com/gpt-omni/mini-omni

👉 @bigdata_1

👍1

1.57K views10:10

This media is not supported in your browser

VIEW IN TELEGRAM

HunyuanVideo-I2V: настраиваемая модель преобразования изображений в видео на основе HunyuanVideo.

Единственная модель, которая может сравниться с Runway Gen-3 и Wan 2.1.

Генерации выглядит хорошо!

▪Github: https://github.com/Tencent/HunyuanVideo-I2V
▪HF: https://huggingface.co/tencent/HunyuanVideo-I2V

👉 @bigdata_1

👍1👎1

1.25K views15:01

🧠 Agentic Reward Modeling — новый подход к обучению LLM, который объединяет человеческие предпочтения с проверяемыми сигналами корректности (фактология и следование инструкциям) для более надежных и точных наград.

🔧 Реализован в виде агента RewardAgent, состоящего из:
- Маршрутизатора — решает, какие проверки запускать
- Агентов верификации — проверяют факты и выполнение инструкций
- Оценщика — объединяет результаты в финальную награду

📊 В экспериментах на GPT-4o-mini и Llama3–8B Instruct:
✅ Существенное улучшение по сравнению с базовой моделью вознаграждений (ArmoRM)
🔍 Проверка фактологии — через Google API и параметры LLM
🧾 Инструкции проверяются даже с помощью Python-кода

Blog: https://medium.com/@techsachin/agentic-reward-modeling-combine-human-preferences-with-verifiable-correctness-signals-for-reliable-76c408b3491c

Paper: https://arxiv.org/abs/2502.19328

Code: https://github.com/THU-KEG/Agentic-Reward-Modeling

👉 @bigdata_1

👍2

981 views07:50

Подборка Telegram каналов для программистов

https://www.tgoop.com/bash_srv Bash Советы
https://www.tgoop.com/win_sysadmin Системный Администратор Windows
https://www.tgoop.com/lifeproger Жизнь программиста. Авторский канал.
https://www.tgoop.com/devopslib Библиотека девопса | DevOps, SRE, Sysadmin
https://www.tgoop.com/rabota1C_rus Вакансии для программистов 1С

Системное администрирование 📌
https://www.tgoop.com/sysadmin_girl Девочка Сисадмин
https://www.tgoop.com/srv_admin_linux Админские угодья
https://www.tgoop.com/linux_srv Типичный Сисадмин

https://www.tgoop.com/linux_odmin Linux: Системный администратор
https://www.tgoop.com/devops_star DevOps Star (Звезда Девопса)
https://www.tgoop.com/i_linux Системный администратор
https://www.tgoop.com/linuxchmod Linux
https://www.tgoop.com/sys_adminos Системный Администратор
https://www.tgoop.com/tipsysdmin Типичный Сисадмин (фото железа, было/стало)
https://www.tgoop.com/sysadminof Книги для админов, полезные материалы
https://www.tgoop.com/i_odmin Все для системного администратора
https://www.tgoop.com/i_odmin_book Библиотека Системного Администратора
https://www.tgoop.com/i_odmin_chat Чат системных администраторов
https://www.tgoop.com/i_DevOps DevOps: Пишем о Docker, Kubernetes и др.
https://www.tgoop.com/sysadminoff Новости Линукс Linux

1C разработка 📌
https://www.tgoop.com/odin1C_rus Cтатьи, курсы, советы, шаблоны кода 1С
https://www.tgoop.com/DevLab1C 1С:Предприятие 8

Программирование C++📌
https://www.tgoop.com/cpp_lib Библиотека C/C++ разработчика
https://www.tgoop.com/cpp_knigi Книги для программистов C/C++
https://www.tgoop.com/cpp_geek Учим C/C++ на примерах

Программирование Python 📌
https://www.tgoop.com/pythonofff Python академия. Учи Python быстро и легко🐍
https://www.tgoop.com/BookPython Библиотека Python разработчика
https://www.tgoop.com/python_real Python подборки на русском и английском
https://www.tgoop.com/python_360 Книги по Python Rus

Java разработка 📌
https://www.tgoop.com/BookJava Библиотека Java разработчика
https://www.tgoop.com/java_360 Книги по Java Rus
https://www.tgoop.com/java_geek Учим Java на примерах

GitHub Сообщество 📌
https://www.tgoop.com/Githublib Интересное из GitHub

Базы данных (Data Base) 📌
https://www.tgoop.com/database_info Все про базы данных

Мобильная разработка: iOS, Android 📌
https://www.tgoop.com/developer_mobila Мобильная разработка
https://www.tgoop.com/kotlin_lib Подборки полезного материала по Kotlin

Фронтенд разработка 📌
https://www.tgoop.com/frontend_1 Подборки для frontend разработчиков
https://www.tgoop.com/frontend_sovet Frontend советы, примеры и практика!
https://www.tgoop.com/React_lib Подборки по React js и все что с ним связано

Разработка игр 📌
https://www.tgoop.com/game_devv Все о разработке игр

Библиотеки 📌
https://www.tgoop.com/book_for_dev Книги для программистов Rus
https://www.tgoop.com/programmist_of Книги по программированию
https://www.tgoop.com/proglb Библиотека программиста
https://www.tgoop.com/bfbook Книги для программистов
https://www.tgoop.com/books_reserv Книги для программистов

БигДата, машинное обучение 📌
https://www.tgoop.com/bigdata_1 Data Science, Big Data, Machine Learning, Deep Learning

Программирование 📌
https://www.tgoop.com/bookflow Лекции, видеоуроки, доклады с IT конференций
https://www.tgoop.com/coddy_academy Полезные советы по программированию
https://www.tgoop.com/rust_lib Полезный контент по программированию на Rust
https://www.tgoop.com/golang_lib Библиотека Go (Golang) разработчика
https://www.tgoop.com/itmozg Программисты, дизайнеры, новости из мира IT
https://www.tgoop.com/php_lib Библиотека PHP программиста 👨🏼‍💻👩‍💻
https://www.tgoop.com/nodejs_lib Подборки по Node js и все что с ним связано
https://www.tgoop.com/ruby_lib Библиотека Ruby программиста

QA, тестирование 📌
https://www.tgoop.com/testlab_qa Библиотека тестировщика

Шутки программистов 📌
https://www.tgoop.com/itumor Шутки программистов

Защита, взлом, безопасность 📌
https://www.tgoop.com/thehaking Канал о кибербезопасности
https://www.tgoop.com/xakep_2 Хакер Free

Книги, статьи для дизайнеров 📌
https://www.tgoop.com/ux_web Статьи, книги для дизайнеров

Математика 📌
https://www.tgoop.com/Pomatematike Канал по математике
https://www.tgoop.com/phis_mat Обучающие видео, книги по Физике и Математике

Excel лайфхак📌
https://www.tgoop.com/Excel_lifehack

https://www.tgoop.com/tikon_1 Новости высоких технологий, науки и техники💡
https://www.tgoop.com/mir_teh Мир технологий (Technology World)

Вакансии 📌
https://www.tgoop.com/sysadmin_rabota Системный Администратор
https://www.tgoop.com/progjob Вакансии в IT

Bash Советы

🚀 Секреты и советы по Bash

🔹 Полезные трюки, хитрые однострочники и лайфхаки для работы в терминале.
🔹 Автоматизация, скрипты и оптимизация работы в Linux.
🔹 Стать мастером Bash легко – просто подпишись!

💻 Прокачивай терминал вместе с нами! 👇

952 views14:31

This media is not supported in your browser

VIEW IN TELEGRAM

Создаем собственного AI-помощника для кодинга в JupyterLab с использованием Ollama и Hugging Face

Недавно я исследовал возможности создания собственного AI-помощника для написания кода. Цель — иметь полноценного помощника, работающего локально, без зависимости от облака и внешних API.

Вот как я это сделал:

🧠 Что такое Ollama?

Ollama — это инструмент для локального запуска LLM (Large Language Models). Он поддерживает модели вроде codellama, llama2, mistral и другие. Всё работает на вашем компьютере, без необходимости обращаться к внешним сервисам.

Пример установки и запуска:


curl -fsSL https://ollama.com/install.sh | sh
ollama run codellama

После запуска вы можете взаимодействовать с моделью через CLI или REST API.

🤖 Интерфейс с JupyterLab

Теперь объединим Ollama с JupyterLab, чтобы создать AI-помощника, с которым можно взаимодействовать прямо в ноутбуке.

Установка расширения:

Устанавливаем jupyter-ai, который интегрируется с LLM в Jupyter:


pip install jupyter-ai
jupyter labextension install @jupyterlab/ai-extension
jupyter ai init

Настройка Ollama в Jupyter AI

Файл jupyter_ai_config.toml:


[jupyter_ai]
default_provider = "ollama"

[jupyter_ai.providers.ollama]
url = "http://localhost:11434"
model = "codellama"

Теперь ваш JupyterLab знает, куда отправлять запросы.

🚀 Использование в Jupyter

Теперь можно использовать магические команды:


%%ai
Напиши функцию на Python, которая сортирует список по возрастанию.

Или вызвать помощника в чате справа от ноутбука.

🧩 Альтернатива: Hugging Face + Text Generation Inference

Если вы хотите использовать модели из Hugging Face — можно установить text-generation-inference, который поддерживает множество моделей, оптимизированных для inference.

Команда запуска:


docker run --gpus all -p 8080:80 ghcr.io/huggingface/text-generation-inference \
--model-id bigcode/starcoder2 \
--quantize gptq

В конфиге JupyterAI:


[jupyter_ai.providers.huggingface_tgi]
url = "http://localhost:8080"
model = "bigcode/starcoder2"

💡 Итоги

Теперь у вас есть полностью локальный AI-кодинг помощник, работающий в JupyterLab, без отправки данных в облако. Отличное решение для конфиденциальной работы, кастомизации и обучения.

https://towardsdatascience.com/build-your-own-ai-coding-assistant-in-jupyterlab-with-ollama-and-hugging-face/

👉 @bigdata_1

👍8

1.05K views02:47

OpenCharacter: обучение настраиваемых LLM для ролевого взаимодействия с использованием масштабных синтетических персон

Настраиваемое ролевое взаимодействие в больших языковых моделях (LLM) — это эффективный и экономичный способ разработки и внедрения агентов диалога с определёнными ролями. В данной работе исследуется подход масштабного синтеза данных, направленный на развитие у LLM способности к обобщению характеров.

Процесс начинается с синтеза крупномасштабных профилей персонажей с использованием базы Persona Hub, после чего рассматриваются две стратегии: переформулировка ответов и генерация ответов, чтобы создать ответы, соответствующие заданному персонажу.

Постановка задачи

i) Ролевое взаимодействие в рамках обучающей выборки (in-domain)
- Модель θ обучается (например, методом дообучения с учителем (SFT)) на диалогах с персонажами, в которых участвуют пользователь и определённый персонаж Cs. Диалоги могут быть вручную размечены или синтетическими.

ii) Ролевое взаимодействие вне обучающей выборки (out-of-domain)
- Требует, чтобы модель θ могла вести себя как новые персонажи Cx, отсутствующие в тренировочных данных.
- Чтобы добиться этого, модель должна обобщать на новые роли, что возможно при обучении на качественно подобранных данных с большим разнообразием персонажей, насыщенными профилями и качественными диалогами.

Обобщение персонажей через синтез данных

i) Синтез профилей персонажей
- Модель побуждают создать синтетический профиль персонажа на основе входной персоны, воображая следующие атрибуты: имя, возраст, пол, раса, место рождения, внешность, жизненный опыт и личность.

ii) Переформулировка ответов с учётом персонажа (OpenCharacter-R)
- Инструкции x из общедоступных наборов инструкций сохраняются, а оригинальный ответ y переписывается в yC, соответствующий стилю и биографии персонажа C.

iii) Генерация ответов с учётом персонажа (OpenCharacter-G)
- Модель побуждают сгенерировать ответ yC на инструкцию x, основываясь на профиле персонажа C.
- В отличие от OpenCharacter-R, который переписывает целую сессию диалога одним промптом, OpenCharacter-G работает пошагово, генерируя ответы по очереди для каждого обмена репликами.

Дообучение с учителем (Supervised Fine-Tuning)

- Для каждой сессии диалога случайным образом выбираются n синтетических персонажей C1, C2, ..., Cn из пула из M профилей, и синтезируются n пар «инструкция-ответ» вида (x, yC1 ), (x, yC2 ), ..., (x, yCn) путём переписывания или генерации.
- Все пары из разных персонажей объединяются и используются для SFT с моделью LLaMA-3 8B.

Результаты
- Лучшая модель усилила базовую LLaMA-3 8B Instruct и показала результаты, сопоставимые с GPT-4o в задачах ролевого взаимодействия в диалогах.

Paper: https://arxiv.org/abs/2501.15427
Dataset: https://huggingface.co/datasets/xywang1/OpenCharacter

👉 @bigdata_1

🔥2👍1

1.17K views07:38

🧩 Critique Fine-Tuning (CFT): новая парадигма обучения LLM

Вместо классического Supervised Fine-Tuning (SFT), где модель учится имитировать «правильные» ответы, авторы предлагают Critique Fine-Tuning (CFT) — обучение через генерацию критики к шумным (и часто ошибочным) ответам.

🔬 Суть подхода:
- Вход: (инструкция x + ответ y)
- Цель: сгенерировать содержательную критику c
- Модель обучается анализировать, а не повторять

📦 Данные:
🔹 WebInstruct-CFT (50K) — критику сгенерировал GPT-4o к оригинальным, часто ошибочным ответам
🔹 Также сформированы baseline-наборы:
- WebInstruct-SFT (ошибочные ответы, 50K)
- WebInstruct-verified (вручную верифицированные GPT-4o, 50K)
- WebInstruct-GPT-4o (ответы от GPT-4o, 50K)

Дополнительно:
- WebInstruct-CFT-Tiny (4K) — для экономного fine-tuning моделей 32B
- Сгенерированы критики к MetaMathQA и NuminaMath

🧠 Обучение:
Модели: Qwen2.5, Qwen2.5-Math, DeepSeekMath (7B и 32B)

Обучение — генерация критики, а не ответов
Формат: concat(x, y) → c

📈 Результаты:
7B модели:
- Qwen2.5-Math-7B (base) → 37.8% avg accuracy
- +CFT → 56.0% — лучший результат среди 7B

32B модели:
- Qwen2.5–32B-Instruct-CFT (4K) превзошла Sky-T1–32B-Preview (17K)

🔗 Ресурсы:
- 📄 Blog
- 🛠️ Paper
- 📊 Code
- 📝 Dataset

CFT показывает, что генерация критики — мощный способ учить модели анализу и обоснованности, а не только подражанию. Подход уже сегодня улучшает производительность на математических задачах с ограниченным количеством данных.

👉 @bigdata_1

👍3

1.05K views18:49

EvalPlanner: модель Thinking-LLM-as-a-Judge, которая учится думать путём планирования и рассуждения при оценке

Модели LLM-as-a-Judge (LLM в роли судьи) генерируют цепочки рассуждений (Chain-of-Thought, CoT), отражающие пошаговый процесс размышлений, лежащий в основе финальной оценки ответа. Однако отсутствие размеченных вручную цепочек CoT затрудняет обучение таких моделей.

Чтобы решить эту проблему, в данной работе представлена EvalPlanner — алгоритм оптимизации предпочтений для Thinking-LLM-as-a-Judge. Он сначала генерирует неограниченный план оценки, затем исполняет его, и только потом выносит итоговый вердикт.

Компоненты
EvalPlanner предполагает, что эффективная цепочка рассуждений для оценки должна состоять из трёх компонентов:

1. План оценки z
— Для данной инструкции план задаёт рецепт оценки предложенных ответов на инструкцию.

2. Исполнение плана
— Отвечает за пошаговое проведение оценки по плану, анализируя пару ответов (a и b) и формируя итоговое суждение y.

3. Итоговый вердикт
— При использовании LLM в роли судьи, параметризованной θ, план z и исполнение e считаются скрытыми переменными.

Генерация синтетических обучающих данных

1. Выбираются общие инструкции и задачи на математическое рассуждение, и генерируются пары ответов.
2. Создаётся универсальный и неограниченный промпт для генерации плана, который задаётся модели-источнику, основываясь только на инструкции.
3. Та же модель-источник используется для выполнения плана на основе инструкции и пары ответов с целью получения вердикта.
4. Формируются пары предпочтений между планами и их исполнениями.

Оптимизация предпочтений планов и исполнений

Включает цикл самообучения:
- Начинается с модели-источника, на которой проводится SFT (Supervised Fine-Tuning) на подмножестве «выбранных» CoT, чтобы получить модель \( M₁^{SFT} \).
- Затем выполняются две итерации Direct Preference Optimization (DPO) на парах предпочтений CoT, в результате чего получаются модели \( M₁^{DPO} \) и \( M₂^{DPO} \).

Результаты

- EvalPlanner достигает нового SOTA (state-of-the-art) результата для генеративных reward-моделей на бенчмарке RewardBench (со счётом 93.9), несмотря на меньшее количество и синтетическую природу пар предпочтений.
- Планы EvalPlanner адаптированы под конкретную инструкцию, эффективны с точки зрения данных и выигрывают от итеративной оптимизации рассуждений.

- 📄 Blog
- 🛠️ Paper

👉 @bigdata_1

👍1

1.01K views09:36

⚡️Хотите стать востребованным экспертом в области рекомендательных систем?

Курс OTUS «Рекомендательные системы» — это практические занятия, живые лекции от ведущих DS/ML-специалистов и актуальные инструменты, которые используют крупнейшие компании. Вы научитесь создавать персонализированные рекомендации, внедрять системы под задачи e-commerce и стриминговых сервисов, эффективно сегментировать пользователей и проводить A/B-тесты.

После курса вы сможете реализовывать решения, которые принесут пользу бизнесу.

👉Оставьте заявку и получите скидку на обучение: https://vk.cc/cKTBkL

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

1.13K views11:00

🖼️ Describe Anything (DAM) — новая модель от NVIDIA и UC Berkeley, способная создавать подробные описания выбранных областей на изображениях и видео.

🔍 Что делает DAM?
• Генерирует детальные описания для указанных пользователем областей (точки, рамки, маски, штрихи) на изображениях и видео.
• Адаптируется к стилю и детализации описания по инструкции пользователя.
• Отвечает на вопросы о выделенных областях без дополнительного обучения.

🧠 Как это работает?
• Использует “focal prompt” — сочетание общего изображения и увеличенной области интереса.
• Интегрирует локальные и глобальные признаки через специализированную архитектуру.
• Обучена с помощью полусупервизируемого пайплайна DLC-SDP, расширяющего существующие датасеты.

📊 Почему это важно?
• Устанавливает новые стандарты в задачах детализированного описания изображений и видео.
• Превосходит предыдущие модели на 7 бенчмарках, включая PACO и Flickr30k Entities.
• Открытый код, модели и данные доступны для сообщества.

🔗 Подробнее: https://describe-anything.github.io/

Демо: https://huggingface.co/spaces/nvidia/describe-anything-model-demo

Код: https://github.com/NVlabs/describe-anything

👉 @bigdata_1

👍2

1.01K views11:06

🛠️ UTGEN + UTDEBUG: обучаем LLM генерировать модульные тесты для автоматической отладки кода

Модульные тесты помогают LLM исправлять ошибки в коде. Но сложно одновременно подобрать тесты к багованному коду и правильно предсказать ожидаемый результат без эталона.
Решение: UTGEN учит LLM генерировать входы и правильные выходы тестов на основе описания задачи и кода-кандидата.
+ UTDEBUG — пайплайн отладки, который использует эти тесты, чтобы повышать качество исправлений.

Как работает:
- Портят эталонный код → создают баги.
- Генерируют тесты, оставляя только те, что выявляют ошибки.
- Добавляют цепочки рассуждений (CoT) к тестам.
- При отладке используют голосование по нескольким ответам и откат, если изменения не улучшают процент прохождения тестов.

Результаты:
- UTGEN лучше базовых методов на +7.59%.
- С UTDEBUG модель Qwen-2.5 7B показывает рост pass@1 на +3% (HumanEval-Fix) и +12.35% (MBPP+).

Blog https://medium.com/@techsachin/teaching-llms-to-generate-unit-tests-for-automated-debugging-of-code-78c62778e4b2
Paper https://arxiv.org/abs/2502.01619
Code https://github.com/archiki/UTGenDebug

👉 @bigdata_1

👍2

971 views08:35

❔Хотите узнать, как популярные приложения угадывают ваши предпочтения? Матричная факторизация — мощный подход для построения рекомендаций.

На открытом вебинаре 30 апреля в 20:00 МСК вы разберетесь с принципами работы моделей матричной факторизации (SVD, ALS), поймёте, как реализовать их на Python с помощью библиотеки implicit и получите практические навыки, которые сразу сможете применить.

После занятия вы сможете создавать эффективные рекомендательные системы и использовать потенциал данных вашего бизнеса для персонализированных решений.

⚡️Регистрируйтесь на открытый урок и получите скидку на программу обучения «Рекомендательные системы»: https://vk.cc/cLe0ky

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

964 views09:26

Atropos — RL Gym для LLM от Nous Research

Atropos — это серия мощных, специализированных моделей LLM, разработанных Nous Research. Она построена на базе архитектуры Mixtral и была обучена с нуля с использованием 4 триллионов токенов данных высокого качества. В серии представлены как полные модели, так и чаты, доступные в формате 7B, с открытым доступом к весам.

Модели Atropos предназначены для генерации, рассуждения, программирования и работы с документами, а также для общения в стиле чата. Они могут использоваться как для задач с одним токеном, так и для сложных задач, требующих многошагового мышления.

https://nousresearch.com/introducing-atropos/

https://github.com/NousResearch/Atropos

👉 @bigdata_1

👍5

921 views20:44

🧠 ThinkPRM: Новый стандарт в верификации решений через Chain-of-Thought

🤖 Верификаторы пошаговых рассуждений (PRMs) — мощный инструмент масштабирования проверки решений на этапе инференса. Но их обучение требует дорогостоящей покадровой разметки.

🔍 Представляем ThinkPRM — data-efficient PRM, который генерирует цепочку верификации (Chain-of-Thought) для каждого шага решения, опираясь на всего 1% меток из PRM800K — и при этом превосходит LLM-as-a-Judge и дискриминативные PRM.

❗️Что не так с LLM-as-a-Judge:

* чувствительность к формулировке инструкции
* ошибки в логике и невалидные итоговые решения
* неправильный формат ответа
* зацикливание и “overthinking”, приводящее к превышению лимита токенов

🧪 Метод ThinkPRM:

1️⃣ Синтетические данные:

* Модель QwQ-32B-Preview генерирует цепочки верификации
* Отбираются только те, где шаги соответствуют PRM800K и укладываются в токен-бюджет

2️⃣ Обучение на 1K цепочках:

* Модель тонко настраивается на выбранных верификациях
* Тестируется на ProcessBench и сравнивается с LLM-as-a-Judge

📊 Результаты:

* 🔝 ThinkPRM превосходит базовые модели на ProcessBench, MATH-500 и AIME’24
* 🧬 На GPQA-Diamond и LiveCodeBench — выигрывает у дискриминативных моделей на 8% и 4.5%
* 📈 При том же токен-бюджете ThinkPRM эффективнее масштабирует верификацию, +7.2% на ProcessBench

💡 ThinkPRM показывает, что меньшее — значит умнее.
Настраивай, не размечай.
Проверяй умно, шаг за шагом.

✅ Blog: https://medium.com/@techsachin/thinkprm-generative-process-reward-model-for-solution-verification-via-long-cot-reasoning-2016f1e1387d

✅ Paper: https://arxiv.org/abs/2504.16828

✅ Dataset: https://huggingface.co/datasets/launch/thinkprm-1K-verification-cots

✅ Models:
- ThinkPRM-14B: https://huggingface.co/launch/ThinkPRM-14B
- ThinkPRM-1.5B: https://huggingface.co/launch/ThinkPRM-1.5B

👉 @bigdata_1

❤1👍1

878 views09:21

🧑🏻‍💻Как улучшить точность рекомендаций в своих проектах?

На открытом вебинаре 12 мая в 20:00 МСК вы узнаете, как работает обучение ранжированию, что такое функции потерь и как они влияют на качество рекомендаций. Понимание этих функций — ключ к эффективному предсказанию предпочтений пользователей.

Освойте практику на реальных данных с использованием модели BPRMF и получите ценные знания, которые помогут улучшить ваши результаты.

⚡️Присоединяйтесь к открытому уроку и получите скидку на программу обучения «Рекомендательные системы»: https://vk.cc/cLEzhI

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

👍1

1.09K views11:04

2025/07/14 12:47:25
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>