Еще одна вещь, которая мне запомнилась с ACL: в своем keynote Luke Zettlemoyer упоминал умопомрачительные успехи RL, которые были обнаружены в некоторых недавних статьях. Например, в Spurious Rewards: Rethinking Training Signals in RLVR показывали, что в принципе Qwen может учиться на рандомных ревордах, или даже на заведомо неправильных (когда модель поощряют за некорректный ответ). Это не единственная в своем роде такая статья, но видимо наиболее всем запомнившаяся. В своей речи Люк сказал, что пока не понятно, с чем связан чудодейственный эффект RL, но мне кажется за пару последних месяцев объяснения уже смогли найти:
1. Банально плохие эвалы, где изначальный перфоманс модели оказывается сильно занижен просто из-за того, что ее ответы не соответствуют ожидаемому формату. Вот в этом репорте можно увидеть разборы многих последних популярных статей по RL, где продвигается обучение с очень странными ревордами, или без ревордов в явном виде (как правило это обучение, где минимизируется или максимизируется энтропия), и практически во всех случаях выводы статьи оказываются несостоятельны, потому что авторы некорректно посчитали изначальные скоры
2. В самих алгоритмах PPO и GRPO уже есть байес. Даже с рандомным ревордом, у этих алгоритмов всегда есть предрасположенность еще чаще выбирать действия, которые уже являются вероятными. Происходит это из-за clipping factor, который ограничивает то, насколько большой может быть апдейт за один шаг, но при этом он не позволяет этому апдейту быть совсем нулевым. Хотя по-хорошему, с рандомными ревордами градиент должен как раз должен быть около 0 и никаких изменений в полиси модели происходить не должно (алгоритмы вроде REINFORCE это обеспечивают)
В целом, сами авторы Spurious Rewards развивают эту мысль в статье (но видимо до этого момента мало кто дошел): они говорят, что Qwen модели изначально имеют некоторую предрасположенность решать математические задачи с помощью вспомогательных кусков кода. После обучения с GRPO они все чаще начинают генерировать код, и это помогает им решать задачи лучше. В то время как в LLaMA-моделях склонности к коду изначально нет, и поэтому такой магический RL на них не работает
Оба этих пункта, как мне кажется, очень важно учитывать при дизайне своих исследований; на ACL было достаточно работ и с очень плохими эвалами, и с очень странными RLем, так что проблема актуальная..........😫
1. Банально плохие эвалы, где изначальный перфоманс модели оказывается сильно занижен просто из-за того, что ее ответы не соответствуют ожидаемому формату. Вот в этом репорте можно увидеть разборы многих последних популярных статей по RL, где продвигается обучение с очень странными ревордами, или без ревордов в явном виде (как правило это обучение, где минимизируется или максимизируется энтропия), и практически во всех случаях выводы статьи оказываются несостоятельны, потому что авторы некорректно посчитали изначальные скоры
2. В самих алгоритмах PPO и GRPO уже есть байес. Даже с рандомным ревордом, у этих алгоритмов всегда есть предрасположенность еще чаще выбирать действия, которые уже являются вероятными. Происходит это из-за clipping factor, который ограничивает то, насколько большой может быть апдейт за один шаг, но при этом он не позволяет этому апдейту быть совсем нулевым. Хотя по-хорошему, с рандомными ревордами градиент должен как раз должен быть около 0 и никаких изменений в полиси модели происходить не должно (алгоритмы вроде REINFORCE это обеспечивают)
В целом, сами авторы Spurious Rewards развивают эту мысль в статье (но видимо до этого момента мало кто дошел): они говорят, что Qwen модели изначально имеют некоторую предрасположенность решать математические задачи с помощью вспомогательных кусков кода. После обучения с GRPO они все чаще начинают генерировать код, и это помогает им решать задачи лучше. В то время как в LLaMA-моделях склонности к коду изначально нет, и поэтому такой магический RL на них не работает
Оба этих пункта, как мне кажется, очень важно учитывать при дизайне своих исследований; на ACL было достаточно работ и с очень плохими эвалами, и с очень странными RLем, так что проблема актуальная..........
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28❤12🔥4🥴1
я обучала одну модель
The Platonic Representation Hypothesis https://arxiv.org/abs/2405.07987 Знал ли Платон, что однажды его процитируют в ML-папире? 🤔 Маловероятно, но гипотеза авторов статьи как будто имеет довольно очевидные корни: они утверждают, что нейросети с разными…
Статья The Platonic Representation Hypothesis – одна из самых запомнившися мне за прошлый год. Если коротко, ее суть была в том, что разные модели, в том числе модели разных модальностей, сходятся к +- похожим латентным представлениям реальности, при чем эти представления отражают то, насколько близкими те или иные концепты являются в рамках человеческого восприятия. И вот наконец вышла пачка статей, которые подтверждают и развивают эту гипотезу дальше:
1. Harnessing the Universal Geometry of Embeddings: эмбеддинги разных моделей с разными архитектурами и разными тренировочными датасетами настолько похожи, что существует функция, которая позволяет перевести их в "универсальное" латентное пространство. При чем, это универсальное пространство сохрянет геометрические отношения между исходными эмбеддингами. И благодаря этому мы можем "переводить" один эмбеддинг в другой без особой потери информации (мне понравилось, как в комментариях к статье ее назвали Rosetta stone for embeddings)
Это не очень хорошо для безопасности векторных баз данных – например, если внутри лежит какой-то неизвестный вам эмбеддинг, а у вас есть свой эмбеддер, то вы можете перевести эмбеддинг в известное вам пространство и потом просто декодировать содержащуюся там информацию
2. Words That Make Language Models Perceive: если попросить языковыую модель "увидеть" описание картинки ("Imagine what it would look like to see {image caption}.") или "услышать" его ("Imagine what it would sound like to hear {caption}."), то ее эмбеддинги станут ближе к визуальному и аудио энкодеру соотвественно
3. Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models: допустим, мы хотим обучиться на модальности X и у нас есть для этого датасет. И еще есть вообще никак не связанный с ним датасет модальности Y – то есть какая-то рандомная пара (x, y) не будет скорее всего никак логически объединена. И тем не менее, если просто сконкатенировать оба датасета X и Y и обучиться на этом, то способности модели на X будут лучше, чем если бы тренировались только на одной этой модальности.
Тут авторы немного ссылаются на тейк Ильи Суцкевера о том, что в модель нужно забрасывать данные, и она в идеале сама должна разобраться, что из них связано между собой, и как-то эксплуатировать эти связи в обучении. В статье с помощью нескольких теорем они это постулируют так: до тех пор, пока информация из Y не вырожденная (то есть не просто повторяет все то, что мы уже выучили из X), она позволяет нам уменьшить неопределенность и сократить доверительный интервал при оценке параметров модели. Плюс, информация из Y может помочь закрыть какие-то слепые пятна, то есть помочь в тех случаях, когда в X вообще не нашлось примеров какого-то концепта
Для экспериментов авторы тренировали модель, где шерились веса между всеми модальностями, но на входе были замороженные энкодеры (и, опционально, декодеры на выходе). В итоге гипотезы статьи подтвердились и в сетапе с тремя модальностями, где учились сразу на тексте, картинках и аудио. Еще из прикольных аблейшенов:
- Если и картинки и текст предоставляют какую-то информацию из общего семантического пространства, то how many words is an image worth? Для CLIP'а они находят, что 1 картинка = 228 словам в плане улучшения аккураси модели
- Авторы находят внутри сетки мультимодальные нейроны, которые отвечают на один и тот же концепт во всех модальностях, даже с учетом того, что в датасете не было параллельных примеров (где например текст четко бы соотвествовал какой-то картинке или аудио дорожке)
1. Harnessing the Universal Geometry of Embeddings: эмбеддинги разных моделей с разными архитектурами и разными тренировочными датасетами настолько похожи, что существует функция, которая позволяет перевести их в "универсальное" латентное пространство. При чем, это универсальное пространство сохрянет геометрические отношения между исходными эмбеддингами. И благодаря этому мы можем "переводить" один эмбеддинг в другой без особой потери информации (мне понравилось, как в комментариях к статье ее назвали Rosetta stone for embeddings)
Это не очень хорошо для безопасности векторных баз данных – например, если внутри лежит какой-то неизвестный вам эмбеддинг, а у вас есть свой эмбеддер, то вы можете перевести эмбеддинг в известное вам пространство и потом просто декодировать содержащуюся там информацию
2. Words That Make Language Models Perceive: если попросить языковыую модель "увидеть" описание картинки ("Imagine what it would look like to see {image caption}.") или "услышать" его ("Imagine what it would sound like to hear {caption}."), то ее эмбеддинги станут ближе к визуальному и аудио энкодеру соотвественно
3. Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models: допустим, мы хотим обучиться на модальности X и у нас есть для этого датасет. И еще есть вообще никак не связанный с ним датасет модальности Y – то есть какая-то рандомная пара (x, y) не будет скорее всего никак логически объединена. И тем не менее, если просто сконкатенировать оба датасета X и Y и обучиться на этом, то способности модели на X будут лучше, чем если бы тренировались только на одной этой модальности.
Тут авторы немного ссылаются на тейк Ильи Суцкевера о том, что в модель нужно забрасывать данные, и она в идеале сама должна разобраться, что из них связано между собой, и как-то эксплуатировать эти связи в обучении. В статье с помощью нескольких теорем они это постулируют так: до тех пор, пока информация из Y не вырожденная (то есть не просто повторяет все то, что мы уже выучили из X), она позволяет нам уменьшить неопределенность и сократить доверительный интервал при оценке параметров модели. Плюс, информация из Y может помочь закрыть какие-то слепые пятна, то есть помочь в тех случаях, когда в X вообще не нашлось примеров какого-то концепта
Для экспериментов авторы тренировали модель, где шерились веса между всеми модальностями, но на входе были замороженные энкодеры (и, опционально, декодеры на выходе). В итоге гипотезы статьи подтвердились и в сетапе с тремя модальностями, где учились сразу на тексте, картинках и аудио. Еще из прикольных аблейшенов:
- Если и картинки и текст предоставляют какую-то информацию из общего семантического пространства, то how many words is an image worth? Для CLIP'а они находят, что 1 картинка = 228 словам в плане улучшения аккураси модели
- Авторы находят внутри сетки мультимодальные нейроны, которые отвечают на один и тот же концепт во всех модальностях, даже с учетом того, что в датасете не было параллельных примеров (где например текст четко бы соотвествовал какой-то картинке или аудио дорожке)
❤21👍16🔥7🤯7