Telegram Web
27 сентября пройдет конференция по прикладному машинному обучению от Яндекса — Practical ML Conf. В этом году на конференции будут представлены доклады по 6 трекам: CV, NLP, Speech, RecSys, MLOps, Data Science. CFP открыт до 23 июня, подача заявок тут.

Что предлагается для спикеров:
⚪️ПК конференции дадут советы по структуре и содержанию доклада
⚪️Прогоны материалов с тренером по публичным выступлениям и помощь с дизайном презентаций
⚪️Возможность понетворкать с другими спикерами и получить фидбэк по проекту
⚪️Промо докладов через каналы Яндекса до и после конференции
⚪️Возможность посетить PML Conf без отбора вместе с +1
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️⚡️⚡️Вчера выложили нашу новую работу Confidence Is All You Need о способности языковых моделей выполнять роль функции наград (применяются в обучении с подкреплением — DeepSeek R1 яркий тому пример) для самостоятельного улучшения качества генерации текста на основе внутренней уверенности в своих ответах. Другими словами, языковая модель сама оценивает лучшие свои ответы, и эта оценка используется для её улучшения/дообучения. Мы назвали этот процесс Reinforcement Learning via Self-Confidence.

Такой подход позволяет избавиться от разработки отдельных функций наград, специальной разметки данных для обучения и дополнительных preference моделей.

В качестве базы для исследований взяли две модели Qwen2.5-Math: 1.5B и 7B, которые уже (как следует из названия) дообучались для решения математических задач. В итоге мы получили существенное улучшение на ряде математических бенчмарков за счёт такой простой процедуры: от +0.8% до +26.8%.

Поддержите апвоутами в голосовании за лучшую статью дня👇👇👇

https://huggingface.co/papers/2506.06395
Делюсь забавным сервисом. Вам показывают фото и карту: надо угадать примерный год, когда оно было сделано, а также ткнуть на глобусе место фотографии

Довольно залипательная вещь👇

https://timeguessr.com/
2025/06/15 07:37:11
Back to Top
HTML Embed Code: