Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/def_model_train/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
я обучала одну модель@def_model_train P.1011
DEF_MODEL_TRAIN Telegram 1011
Пару дней назад у меня в школе был open Q&A с ресерчером из OpenAI Яном Кирхнером. Ян работает в Superalignment команде, и он один из соавторов очень крутой статьи Weak-to-strong generalization. Если TLDR, это статья про то, как не очень умные хуманы могут в перспективе обучать superhuman AI. В статье они используют GPT-2, чтобы генерировать фидбек для обучения гораздо большей GPT-4. В итоге такой фидбек от weak supervisor все равно получается лучше, чем обычный файнтюн, но разумеется не дотягивает до оригинальной GPT-4

Собственно команда Superalignment занята фундаментальным вопросом, как нам прыгнуть на голову выше человеческого перфоманса. Основная предпосылка тут, что обучаясь на человеческих данных (и на человеческих текстах, и на человеческой разметке), мы так и останемся примерно на уровне среднестатистических людей. Тут это напоминает Goodhart’s law: поскольку человеческая разметка в обучении стала таргетом, а не метрикой, то она перестает быть хорошей метрикой. Ян признается, что infinitely scalable solution for alignment у них еще нет, и что в течение 4-5 лет они надеются либо его найти, либо прийти к тому, что его не существует

Мне это рассуждение напомнило вот этот недавний твит, где автор приводит причины, почему обучаясь на человеческих данных мы все равно можем получить сильный AI:

1. Self-play. В этом году на эту тему вышла сначала статья SPIN, а потом Self-Rewarding Language Models от Meta. В последний модель учится сама быть и генератором, и разметчиком, и итеративно обучается на своем же фидбеке, при этом продолжая наращивать метрики (полоток в этой работе не был достигнут)
2. Aggregated peak performance – ни один участник межнара по математике не может решить все задачи сразу, но модель обучается на решениях всего и сразу
3. Aggregated knowledge – AI может “удерживать” в памяти гораздо больше изученного материала, чем люди в среднем
4. Speed – возможно AI не сможет стать умнее людей, но может значительно обойти из по скорости (см. LLaMA 3 on Groq), а это иногда решает
5. Unique data – можно обучить модель на огромном количестве очень специфичных данных, вроде структур белков, которые предсказывает AlphaFold. Такие данные людям слишком сложно воспринимать самим напрямую, и тем более не в таком объеме

В реплаях там накидали и критики этих тейков (feel free покритиковать их в коментах!), но мне показалось, что этот список неплохой + заставляет задуматься…
👍342🔥1



tgoop.com/def_model_train/1011
Create:
Last Update:

Пару дней назад у меня в школе был open Q&A с ресерчером из OpenAI Яном Кирхнером. Ян работает в Superalignment команде, и он один из соавторов очень крутой статьи Weak-to-strong generalization. Если TLDR, это статья про то, как не очень умные хуманы могут в перспективе обучать superhuman AI. В статье они используют GPT-2, чтобы генерировать фидбек для обучения гораздо большей GPT-4. В итоге такой фидбек от weak supervisor все равно получается лучше, чем обычный файнтюн, но разумеется не дотягивает до оригинальной GPT-4

Собственно команда Superalignment занята фундаментальным вопросом, как нам прыгнуть на голову выше человеческого перфоманса. Основная предпосылка тут, что обучаясь на человеческих данных (и на человеческих текстах, и на человеческой разметке), мы так и останемся примерно на уровне среднестатистических людей. Тут это напоминает Goodhart’s law: поскольку человеческая разметка в обучении стала таргетом, а не метрикой, то она перестает быть хорошей метрикой. Ян признается, что infinitely scalable solution for alignment у них еще нет, и что в течение 4-5 лет они надеются либо его найти, либо прийти к тому, что его не существует

Мне это рассуждение напомнило вот этот недавний твит, где автор приводит причины, почему обучаясь на человеческих данных мы все равно можем получить сильный AI:

1. Self-play. В этом году на эту тему вышла сначала статья SPIN, а потом Self-Rewarding Language Models от Meta. В последний модель учится сама быть и генератором, и разметчиком, и итеративно обучается на своем же фидбеке, при этом продолжая наращивать метрики (полоток в этой работе не был достигнут)
2. Aggregated peak performance – ни один участник межнара по математике не может решить все задачи сразу, но модель обучается на решениях всего и сразу
3. Aggregated knowledge – AI может “удерживать” в памяти гораздо больше изученного материала, чем люди в среднем
4. Speed – возможно AI не сможет стать умнее людей, но может значительно обойти из по скорости (см. LLaMA 3 on Groq), а это иногда решает
5. Unique data – можно обучить модель на огромном количестве очень специфичных данных, вроде структур белков, которые предсказывает AlphaFold. Такие данные людям слишком сложно воспринимать самим напрямую, и тем более не в таком объеме

В реплаях там накидали и критики этих тейков (feel free покритиковать их в коментах!), но мне показалось, что этот список неплохой + заставляет задуматься…

BY я обучала одну модель




Share with your friend now:
tgoop.com/def_model_train/1011

View MORE
Open in Telegram


Telegram News

Date: |

The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS): Image: Telegram.
from us


Telegram я обучала одну модель
FROM American