LLM_UNDER_HOOD Telegram 668
OpenAI говорит, что SGR - тупиковый путь

Точнее, сегодня это заявил исследователь из OpenAI Lukasz Kaiser, один из авторов знаменитой статьи о трансформерах «Attention is all you need».

Лукаш работал не только над трансформерами, но и над последними моделями, ориентированными на reasoning. Сегодня на TED AI он рассказал, что текущие модели reasoning работают неплохо, однако имеют существенные ограничения: они решают задачи линейно, «забрасывая» их токенами, плохо масштабируются и долго отвечают. По его мнению, будущее за следующим поколением моделей - так называемыми Researchers, которые гораздо лучше поддаются распараллеливанию (фото его слайдов на эту тему - в комментариях).

Я рассказал Лукашу о подходе Schema-Guided Reasoning (SGR), когда сложный ризонинг эмулируется в меньших моделях через фиксированные планы, и спросил, насколько это соответствует его видению будущего.

Лукаш считает, что SGR - это тупиковый путь развития. Почему? Да потому что reasoning в таком случае фиксированный, и модель движется по заранее проложенным «рельсам». Даже если с таким промптом модель решает конкретную задачу точнее и быстрее, чем универсальная модель, она никогда не сможет самостоятельно провести научное исследование или свернуть белок.

Какой же тогда правильный путь? По мнению Лукаша, нужно обучать модели с помощью Reinforcement Learning (RL), чтобы «не обрезать им крылья». Правда, он отметил, что нормальных open-source библиотек для этого пока нет, но вот в API OpenAI есть Reinforcement Fine-Tuning как фича.

Кроме того, по его словам, constrained decoding (Structured Outputs) - тоже «зло», так как оно ограничивает полет мысли моделей. Лучше использовать тюнинг или полноценное обучение.

Очевидно, что Лукашу интересны глобальные и масштабные задачи, которые он умеет и любит решать. А вот запуск точных, но узкоспециализированных решений с ограниченными ресурсами его не особо вдохновляет.

«Ну работает ваш SGR на маленькой модели лучше, чем reasoning-модель с доказанным качеством? Молодцы! Но путь всё равно тупиковый, ведь протеины-то оно складывать не сможет».

А что вы думаете по этому поводу?)

Ваш, @llm_under_hood 🤗

PS: А почему именно складывание протеинов? Так после него выступал Oriol Vinyals - VP исследований Google DeepMind и один из тех лидов для Gemini! Они в очередной раз рассказывали про то, как AlphaFold получил Нобелевку за это самое складывание протеинов.
76👍55😁25🔥7🎄1



tgoop.com/llm_under_hood/668
Create:
Last Update:

OpenAI говорит, что SGR - тупиковый путь

Точнее, сегодня это заявил исследователь из OpenAI Lukasz Kaiser, один из авторов знаменитой статьи о трансформерах «Attention is all you need».

Лукаш работал не только над трансформерами, но и над последними моделями, ориентированными на reasoning. Сегодня на TED AI он рассказал, что текущие модели reasoning работают неплохо, однако имеют существенные ограничения: они решают задачи линейно, «забрасывая» их токенами, плохо масштабируются и долго отвечают. По его мнению, будущее за следующим поколением моделей - так называемыми Researchers, которые гораздо лучше поддаются распараллеливанию (фото его слайдов на эту тему - в комментариях).

Я рассказал Лукашу о подходе Schema-Guided Reasoning (SGR), когда сложный ризонинг эмулируется в меньших моделях через фиксированные планы, и спросил, насколько это соответствует его видению будущего.

Лукаш считает, что SGR - это тупиковый путь развития. Почему? Да потому что reasoning в таком случае фиксированный, и модель движется по заранее проложенным «рельсам». Даже если с таким промптом модель решает конкретную задачу точнее и быстрее, чем универсальная модель, она никогда не сможет самостоятельно провести научное исследование или свернуть белок.

Какой же тогда правильный путь? По мнению Лукаша, нужно обучать модели с помощью Reinforcement Learning (RL), чтобы «не обрезать им крылья». Правда, он отметил, что нормальных open-source библиотек для этого пока нет, но вот в API OpenAI есть Reinforcement Fine-Tuning как фича.

Кроме того, по его словам, constrained decoding (Structured Outputs) - тоже «зло», так как оно ограничивает полет мысли моделей. Лучше использовать тюнинг или полноценное обучение.

Очевидно, что Лукашу интересны глобальные и масштабные задачи, которые он умеет и любит решать. А вот запуск точных, но узкоспециализированных решений с ограниченными ресурсами его не особо вдохновляет.

«Ну работает ваш SGR на маленькой модели лучше, чем reasoning-модель с доказанным качеством? Молодцы! Но путь всё равно тупиковый, ведь протеины-то оно складывать не сможет».

А что вы думаете по этому поводу?)

Ваш, @llm_under_hood 🤗

PS: А почему именно складывание протеинов? Так после него выступал Oriol Vinyals - VP исследований Google DeepMind и один из тех лидов для Gemini! Они в очередной раз рассказывали про то, как AlphaFold получил Нобелевку за это самое складывание протеинов.

BY LLM под капотом


Share with your friend now:
tgoop.com/llm_under_hood/668

View MORE
Open in Telegram


Telegram News

Date: |

When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. To view your bio, click the Menu icon and select “View channel info.” How to Create a Private or Public Channel on Telegram? The Standard Channel Telegram users themselves will be able to flag and report potentially false content.
from us


Telegram LLM под капотом
FROM American