DATA_SECRETS Telegram 7323
Ученые предложили потенциально новую парадигму для генеративок: Energy-Based трансформеры

В исследовании принимали участие ученые из Амазона, Стэнфорда, Гарварда, Амстердамского и Иллинойского университетов. Сейчас разберемся, что они придумали.

Основная идея – минимизация функции энергии. Модель выдает не просто токен за токеном, а выводит энергию – число, показывающее, насколько хорошо кандидат-предсказание сочетается с контекстом. Чем ниже энергия, тем разумнее предсказание.

То есть мы начинаем с шумной или случайной последовательности и итеративно улучшаем ее, снижая энергию градиентным спуском, пока не сойдёмся к оптимуму. Чем-то снова напоминает диффузию.

Это дает: (а) динамическое время на рассуждения: энергия может сойтись за 2, а может за 10000 шагов; (б) универсальный подход для ризонинга (в отличие от того, как думают LLM сейчас) + самопроверку на каждом шаге.

И даже по метрикам все неплохо: пишут, что EBT лучше обобщается на новые задачи и быстрее учится, да и перплексия получается приятная. На других модальностях тоже все ок.

Единственный нюанс – вычисления. Для модели нужны градиенты второго порядка, ну и каждый шаг оптимизации энергии – это дополнительный проход. Так что получается в среднем в 6-7 раз тяжелее обычного трансформера.

Но может, что-то из этого и выйдет

Статья | GitHub
189👍46🔥23🤨10🤔6



tgoop.com/data_secrets/7323
Create:
Last Update:

Ученые предложили потенциально новую парадигму для генеративок: Energy-Based трансформеры

В исследовании принимали участие ученые из Амазона, Стэнфорда, Гарварда, Амстердамского и Иллинойского университетов. Сейчас разберемся, что они придумали.

Основная идея – минимизация функции энергии. Модель выдает не просто токен за токеном, а выводит энергию – число, показывающее, насколько хорошо кандидат-предсказание сочетается с контекстом. Чем ниже энергия, тем разумнее предсказание.

То есть мы начинаем с шумной или случайной последовательности и итеративно улучшаем ее, снижая энергию градиентным спуском, пока не сойдёмся к оптимуму. Чем-то снова напоминает диффузию.

Это дает: (а) динамическое время на рассуждения: энергия может сойтись за 2, а может за 10000 шагов; (б) универсальный подход для ризонинга (в отличие от того, как думают LLM сейчас) + самопроверку на каждом шаге.

И даже по метрикам все неплохо: пишут, что EBT лучше обобщается на новые задачи и быстрее учится, да и перплексия получается приятная. На других модальностях тоже все ок.

Единственный нюанс – вычисления. Для модели нужны градиенты второго порядка, ну и каждый шаг оптимизации энергии – это дополнительный проход. Так что получается в среднем в 6-7 раз тяжелее обычного трансформера.

Но может, что-то из этого и выйдет

Статья | GitHub

BY Data Secrets








Share with your friend now:
tgoop.com/data_secrets/7323

View MORE
Open in Telegram


Telegram News

Date: |

“Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist.
from us


Telegram Data Secrets
FROM American