JDATA_BLOG Telegram 401
GPT-2 победила o1-mini благодаря гроккингу

Мы использовали 2WikiMultiHopQA набор данных для n-шаговых задач рассуждения и с помощью гроккинга добились 96% точности.

Что такое гроккинг?

Гроккинг – отложенное обобщение модели. Если тренировать модель очень долго, то она начнет решать задачу со 100% точностью на новых данных. Очень долго – в 100 раз дольше после достижения моделью 100% точности на тренировочной выборки.

Что уникального?

Мы первые, кто применил гроккинг на реальном наборе данных. До сих пор гроккинг не применялся на реальных задачах рассуждения – только "лабораторные" примеры модульного деления. Недавно вышла статья, которая все еще на игрушечном наборе данных показала, что проблема была в количестве выведенных фактов. Если просто, то в реальных данных просто недостаточно примеров рассуждения, чтобы гроккинг появился.

Что сделали мы?

Мы решили продолжить открытия той статьи, но на реальных данных и аугментировали больше рассуждения с "выведенными фактами". Сделали это с помощью GPT-4о модели, расширили набор тренировочных данных, тренировали модель очень долго, и вау-ля! У вас почти 100% точность. Почему нет 100%? В процессе аугментации возникают ошибки и галлюцинации, поэтому точность не 100%, но если улучшить этот процесс, то можно достичь и 100%.

Пример задачи:

Обучающая пара:
– Эйфелева Башня находится во Франции.
– Музей BMW находится в Германии.

Вопрос: Находятся ли они в одной стране?

Чтобы ответить, модель должна сделать два шага рассуждения: извлечь местоположения объектов и сравнить их. Проблема в том, что в реальных данных вопросов с ответами не так много – их мы и расширили.

Что теперь?

Хотим работать в этом направлении дальше и планируем расширить набор задач, который можно решать с помощью гроккинга.

Нужна ваша помощь!

Выпустили статью и сейчас боремся за "Статью дня" на Hugging Face. Проголосовать можно тут:

👉 Поддержите апвоутом 👈

Полноценный обзор статьи на Хабре

Сама статья

P.S. За репост отдельный респект.
🔥18



tgoop.com/jdata_blog/401
Create:
Last Update:

GPT-2 победила o1-mini благодаря гроккингу

Мы использовали 2WikiMultiHopQA набор данных для n-шаговых задач рассуждения и с помощью гроккинга добились 96% точности.

Что такое гроккинг?

Гроккинг – отложенное обобщение модели. Если тренировать модель очень долго, то она начнет решать задачу со 100% точностью на новых данных. Очень долго – в 100 раз дольше после достижения моделью 100% точности на тренировочной выборки.

Что уникального?

Мы первые, кто применил гроккинг на реальном наборе данных. До сих пор гроккинг не применялся на реальных задачах рассуждения – только "лабораторные" примеры модульного деления. Недавно вышла статья, которая все еще на игрушечном наборе данных показала, что проблема была в количестве выведенных фактов. Если просто, то в реальных данных просто недостаточно примеров рассуждения, чтобы гроккинг появился.

Что сделали мы?

Мы решили продолжить открытия той статьи, но на реальных данных и аугментировали больше рассуждения с "выведенными фактами". Сделали это с помощью GPT-4о модели, расширили набор тренировочных данных, тренировали модель очень долго, и вау-ля! У вас почти 100% точность. Почему нет 100%? В процессе аугментации возникают ошибки и галлюцинации, поэтому точность не 100%, но если улучшить этот процесс, то можно достичь и 100%.

Пример задачи:

Обучающая пара:
– Эйфелева Башня находится во Франции.
– Музей BMW находится в Германии.

Вопрос: Находятся ли они в одной стране?

Чтобы ответить, модель должна сделать два шага рассуждения: извлечь местоположения объектов и сравнить их. Проблема в том, что в реальных данных вопросов с ответами не так много – их мы и расширили.

Что теперь?

Хотим работать в этом направлении дальше и планируем расширить набор задач, который можно решать с помощью гроккинга.

Нужна ваша помощь!

Выпустили статью и сейчас боремся за "Статью дня" на Hugging Face. Проголосовать можно тут:

👉 Поддержите апвоутом 👈

Полноценный обзор статьи на Хабре

Сама статья

P.S. За репост отдельный респект.

BY Data Blog




Share with your friend now:
tgoop.com/jdata_blog/401

View MORE
Open in Telegram


Telegram News

Date: |

Telegram users themselves will be able to flag and report potentially false content. best-secure-messaging-apps-shutterstock-1892950018.jpg According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. How to Create a Private or Public Channel on Telegram?
from us


Telegram Data Blog
FROM American