tgoop.com/jdata_blog/401
Last Update:
GPT-2 победила o1-mini благодаря гроккингу
Мы использовали 2WikiMultiHopQA набор данных для n-шаговых задач рассуждения и с помощью гроккинга добились 96% точности.
Что такое гроккинг?
Гроккинг – отложенное обобщение модели. Если тренировать модель очень долго, то она начнет решать задачу со 100% точностью на новых данных. Очень долго – в 100 раз дольше после достижения моделью 100% точности на тренировочной выборки.
Что уникального?
Мы первые, кто применил гроккинг на реальном наборе данных. До сих пор гроккинг не применялся на реальных задачах рассуждения – только "лабораторные" примеры модульного деления. Недавно вышла статья, которая все еще на игрушечном наборе данных показала, что проблема была в количестве выведенных фактов. Если просто, то в реальных данных просто недостаточно примеров рассуждения, чтобы гроккинг появился.
Что сделали мы?
Мы решили продолжить открытия той статьи, но на реальных данных и аугментировали больше рассуждения с "выведенными фактами". Сделали это с помощью GPT-4о модели, расширили набор тренировочных данных, тренировали модель очень долго, и вау-ля! У вас почти 100% точность. Почему нет 100%? В процессе аугментации возникают ошибки и галлюцинации, поэтому точность не 100%, но если улучшить этот процесс, то можно достичь и 100%.
Пример задачи:
Обучающая пара:
– Эйфелева Башня находится во Франции.
– Музей BMW находится в Германии.
Вопрос: Находятся ли они в одной стране?
Чтобы ответить, модель должна сделать два шага рассуждения: извлечь местоположения объектов и сравнить их. Проблема в том, что в реальных данных вопросов с ответами не так много – их мы и расширили.
Что теперь?
Хотим работать в этом направлении дальше и планируем расширить набор задач, который можно решать с помощью гроккинга.
Нужна ваша помощь!
Выпустили статью и сейчас боремся за "Статью дня" на Hugging Face. Проголосовать можно тут:
👉 Поддержите апвоутом 👈
Полноценный обзор статьи на Хабре
Сама статья
P.S. За репост отдельный респект.
BY Data Blog

Share with your friend now:
tgoop.com/jdata_blog/401