Notice: file_put_contents(): Write of 9870 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 8192 of 18062 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
DL in NLP@dlinnlp P.1507
DLINNLP Telegram 1507
Toolformer: Language Models Can Teach Themselves to Use Tools
arxiv.org/abs/2302.04761

Давно не было обзоров статей что-то. Про тулформер на прошлой неделе не говорил только ленивый (например — я) и пришло время её описать.

Изначальная идея очень простая — если LM плохо умеют делать формальные вещи типа умножения и деления или плохо знают какие-то факты из википедии или других knowledge base, почему бы не дать им возможность обращаться к этим тулзам напрямую? Так уже на самом с прошлого года делают некоторые стартапы работающие на OpenAI API (смотреть на langchain.readthedocs.io), но вот что нового придумали в Toolformer:

Датасет для обучения модели генерируется самой моделью на основе нескольких in-context примеров использований сторонних API (калькулятор, википедия, поиск, ...). После генерации датасет фильтруется на основе того что лучше уменьшает перплексию — результаты вызова API или просто free form generation. Потом модель на получившемся датасете.

Вот примеры API которые использует Toolformer:
1. Калькулятор
1. Поиск по википедии
1. Переводчик
1. Календарь
1. Нейросеть ATLAS для QA (да, нейросеть использует нейросеть)

Для генерации датасета использовали GPT-J и потом её же файнтюнили. По результатам сильно аутперфомят OPT-66B и местами GPT-3 (оригинальный davinci без instruciton tuning).

Хотел сказать вот смотрите какой классный рисёч с не очень большими модельками, а потом увидел что всё-таки они использовали 8xA100 (40Gb) для экспериментов. Что относительно немного по современным меркам, но далеко не у всех есть.
👍15



tgoop.com/dlinnlp/1507
Create:
Last Update:

Toolformer: Language Models Can Teach Themselves to Use Tools
arxiv.org/abs/2302.04761

Давно не было обзоров статей что-то. Про тулформер на прошлой неделе не говорил только ленивый (например — я) и пришло время её описать.

Изначальная идея очень простая — если LM плохо умеют делать формальные вещи типа умножения и деления или плохо знают какие-то факты из википедии или других knowledge base, почему бы не дать им возможность обращаться к этим тулзам напрямую? Так уже на самом с прошлого года делают некоторые стартапы работающие на OpenAI API (смотреть на langchain.readthedocs.io), но вот что нового придумали в Toolformer:

Датасет для обучения модели генерируется самой моделью на основе нескольких in-context примеров использований сторонних API (калькулятор, википедия, поиск, ...). После генерации датасет фильтруется на основе того что лучше уменьшает перплексию — результаты вызова API или просто free form generation. Потом модель на получившемся датасете.

Вот примеры API которые использует Toolformer:
1. Калькулятор
1. Поиск по википедии
1. Переводчик
1. Календарь
1. Нейросеть ATLAS для QA (да, нейросеть использует нейросеть)

Для генерации датасета использовали GPT-J и потом её же файнтюнили. По результатам сильно аутперфомят OPT-66B и местами GPT-3 (оригинальный davinci без instruciton tuning).

Хотел сказать вот смотрите какой классный рисёч с не очень большими модельками, а потом увидел что всё-таки они использовали 8xA100 (40Gb) для экспериментов. Что относительно немного по современным меркам, но далеко не у всех есть.

BY DL in NLP




Share with your friend now:
tgoop.com/dlinnlp/1507

View MORE
Open in Telegram


Telegram News

Date: |

Telegram channels fall into two types: Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. 1What is Telegram Channels? With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members.
from us


Telegram DL in NLP
FROM American