NLPWANDERER Telegram 127
Бывает делаешь датасет без статьи и блога, никому о нем не рассказываешь, выкладываешь тихонечко в опенсорс - а потом тебя неожиданно цитируют китайцы в работе про ризонинг через почти полтора года.

В недавней работе (24тое апреля) "DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training" от команды a-m-team, где авторы решили отобрать самые лучшие данные для трейна ризонинга и проработали методологию подготовки данных с акцентом на уровни сложности, среди прочих, цитируется мой датасет - hivaze/LOGIC-701. В самой работе авторы показыват что хорошая методология работы с данным позволяет тренировать SOTA ризонинг модели с нуля из базовых версий (Qwen2.5-32B и Qwen2.5-72B), используя только лишь SFT без RL (GRPO/DPO).

Сам датасет из себя представляет синтетический мультичойс датасет на 701 строку с 10 типами разных чисто логических задач. Отдельная фишка - все задачи и ответы даются паралельно на двух языках (выполнен перевод с англа на русский), что позволяет использовать этот датасет как бенчмарк сопобностей ризонинга моделей на двух языках. Датасет был создан в период моей работы в Точка банке (в описании датасета я это даже указывал), и несмотря на подробный README о процессе создания и в целом высокое качество, я не писал нигде блогпост или мини-статью про этот датасет, но китайские авторы, кажется могут найти вобще что угодно для своей статьи, за что я им и благодарен, хоть и несколько неожиданно (еще и потомучто они испоьзовали очевидно бенчмарковый датасет для тренировки🥴).

Основная мысль такая - пишите микростатьи или блоги если вы чтото выкладвете в опенсорс (особенно если это датасеты), даже если вам кажется что ваша работа не так важна - спустя время ктото обязательно найдет и посчитает ваш труд полезным, а вы получите приятный бонус в виде цитирования (уместного или нет). Довольно очевидно для тех кто профессионально занимается наукой, но эта мысль скорее направлена тем кто именно делает опенсорс.

P.S. Акцент на сложности задач крайне важен для ризонинга и про это в основном все забывают, что зачастую приводит к неверным выводам о том, что ризонинг модели бесполезны если можно делать BoN и получать похожее качество @128 (условно), но ризонинг модели споосбы решать лучше именно более сложные задачи, где обычные модели не справляются за адекватный компьют.
🔥19👍2



tgoop.com/nlpwanderer/127
Create:
Last Update:

Бывает делаешь датасет без статьи и блога, никому о нем не рассказываешь, выкладываешь тихонечко в опенсорс - а потом тебя неожиданно цитируют китайцы в работе про ризонинг через почти полтора года.

В недавней работе (24тое апреля) "DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training" от команды a-m-team, где авторы решили отобрать самые лучшие данные для трейна ризонинга и проработали методологию подготовки данных с акцентом на уровни сложности, среди прочих, цитируется мой датасет - hivaze/LOGIC-701. В самой работе авторы показыват что хорошая методология работы с данным позволяет тренировать SOTA ризонинг модели с нуля из базовых версий (Qwen2.5-32B и Qwen2.5-72B), используя только лишь SFT без RL (GRPO/DPO).

Сам датасет из себя представляет синтетический мультичойс датасет на 701 строку с 10 типами разных чисто логических задач. Отдельная фишка - все задачи и ответы даются паралельно на двух языках (выполнен перевод с англа на русский), что позволяет использовать этот датасет как бенчмарк сопобностей ризонинга моделей на двух языках. Датасет был создан в период моей работы в Точка банке (в описании датасета я это даже указывал), и несмотря на подробный README о процессе создания и в целом высокое качество, я не писал нигде блогпост или мини-статью про этот датасет, но китайские авторы, кажется могут найти вобще что угодно для своей статьи, за что я им и благодарен, хоть и несколько неожиданно (еще и потомучто они испоьзовали очевидно бенчмарковый датасет для тренировки🥴).

Основная мысль такая - пишите микростатьи или блоги если вы чтото выкладвете в опенсорс (особенно если это датасеты), даже если вам кажется что ваша работа не так важна - спустя время ктото обязательно найдет и посчитает ваш труд полезным, а вы получите приятный бонус в виде цитирования (уместного или нет). Довольно очевидно для тех кто профессионально занимается наукой, но эта мысль скорее направлена тем кто именно делает опенсорс.

P.S. Акцент на сложности задач крайне важен для ризонинга и про это в основном все забывают, что зачастую приводит к неверным выводам о том, что ризонинг модели бесполезны если можно делать BoN и получать похожее качество @128 (условно), но ризонинг модели споосбы решать лучше именно более сложные задачи, где обычные модели не справляются за адекватный компьют.

BY NLP Wanderer




Share with your friend now:
tgoop.com/nlpwanderer/127

View MORE
Open in Telegram


Telegram News

Date: |

The best encrypted messaging apps Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. A vandalised bank during the 2019 protest. File photo: May James/HKFP. Read now ZDNET RECOMMENDS
from us


Telegram NLP Wanderer
FROM American