NLP Wanderer@nlpwanderer P.127

NLP Wanderer

Бывает делаешь датасет без статьи и блога, никому о нем не рассказываешь, выкладываешь тихонечко в опенсорс - а потом тебя неожиданно цитируют китайцы в работе про ризонинг через почти полтора года.

В недавней работе (24тое апреля) "DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training" от команды a-m-team, где авторы решили отобрать самые лучшие данные для трейна ризонинга и проработали методологию подготовки данных с акцентом на уровни сложности, среди прочих, цитируется мой датасет - hivaze/LOGIC-701. В самой работе авторы показыват что хорошая методология работы с данным позволяет тренировать SOTA ризонинг модели с нуля из базовых версий (Qwen2.5-32B и Qwen2.5-72B), используя только лишь SFT без RL (GRPO/DPO).

Сам датасет из себя представляет синтетический мультичойс датасет на 701 строку с 10 типами разных чисто логических задач. Отдельная фишка - все задачи и ответы даются паралельно на двух языках (выполнен перевод с англа на русский), что позволяет использовать этот датасет как бенчмарк сопобностей ризонинга моделей на двух языках. Датасет был создан в период моей работы в Точка банке (в описании датасета я это даже указывал), и несмотря на подробный README о процессе создания и в целом высокое качество, я не писал нигде блогпост или мини-статью про этот датасет, но китайские авторы, кажется могут найти вобще что угодно для своей статьи, за что я им и благодарен, хоть и несколько неожиданно (еще и потомучто они испоьзовали очевидно бенчмарковый датасет для тренировки🥴).

Основная мысль такая - пишите микростатьи или блоги если вы чтото выкладвете в опенсорс (особенно если это датасеты), даже если вам кажется что ваша работа не так важна - спустя время ктото обязательно найдет и посчитает ваш труд полезным, а вы получите приятный бонус в виде цитирования (уместного или нет). Довольно очевидно для тех кто профессионально занимается наукой, но эта мысль скорее направлена тем кто именно делает опенсорс.

P.S. Акцент на сложности задач крайне важен для ризонинга и про это в основном все забывают, что зачастую приводит к неверным выводам о том, что ризонинг модели бесполезны если можно делать BoN и получать похожее качество @128 (условно), но ризонинг модели споосбы решать лучше именно более сложные задачи, где обычные модели не справляются за адекватный компьют.

🔥19👍2

www.tgoop.com/nlpwanderer/127

1.45K viewsedited May 3 at 06:10

tgoop.com/nlpwanderer/127

Create: 2025-05-03
Last Update: 2025-12-07 06:45:49

BY NLP Wanderer

Share with your friend now:
tgoop.com/nlpwanderer/127

Telegram News

Бывает делаешь датасет без статьи и блога