tgoop.com/def_model_train/1074
Last Update:
Статья The Platonic Representation Hypothesis – одна из самых запомнившися мне за прошлый год. Если коротко, ее суть была в том, что разные модели, в том числе модели разных модальностей, сходятся к +- похожим латентным представлениям реальности, при чем эти представления отражают то, насколько близкими те или иные концепты являются в рамках человеческого восприятия. И вот наконец вышла пачка статей, которые подтверждают и развивают эту гипотезу дальше:
1. Harnessing the Universal Geometry of Embeddings: эмбеддинги разных моделей с разными архитектурами и разными тренировочными датасетами настолько похожи, что существует функция, которая позволяет перевести их в "универсальное" латентное пространство. При чем, это универсальное пространство сохрянет геометрические отношения между исходными эмбеддингами. И благодаря этому мы можем "переводить" один эмбеддинг в другой без особой потери информации (мне понравилось, как в комментариях к статье ее назвали Rosetta stone for embeddings)
Это не очень хорошо для безопасности векторных баз данных – например, если внутри лежит какой-то неизвестный вам эмбеддинг, а у вас есть свой эмбеддер, то вы можете перевести эмбеддинг в известное вам пространство и потом просто декодировать содержащуюся там информацию
2. Words That Make Language Models Perceive: если попросить языковыую модель "увидеть" описание картинки ("Imagine what it would look like to see {image caption}.") или "услышать" его ("Imagine what it would sound like to hear {caption}."), то ее эмбеддинги станут ближе к визуальному и аудио энкодеру соотвественно
3. Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models: допустим, мы хотим обучиться на модальности X и у нас есть для этого датасет. И еще есть вообще никак не связанный с ним датасет модальности Y – то есть какая-то рандомная пара (x, y) не будет скорее всего никак логически объединена. И тем не менее, если просто сконкатенировать оба датасета X и Y и обучиться на этом, то способности модели на X будут лучше, чем если бы тренировались только на одной этой модальности.
Тут авторы немного ссылаются на тейк Ильи Суцкевера о том, что в модель нужно забрасывать данные, и она в идеале сама должна разобраться, что из них связано между собой, и как-то эксплуатировать эти связи в обучении. В статье с помощью нескольких теорем они это постулируют так: до тех пор, пока информация из Y не вырожденная (то есть не просто повторяет все то, что мы уже выучили из X), она позволяет нам уменьшить неопределенность и сократить доверительный интервал при оценке параметров модели. Плюс, информация из Y может помочь закрыть какие-то слепые пятна, то есть помочь в тех случаях, когда в X вообще не нашлось примеров какого-то концепта
Для экспериментов авторы тренировали модель, где шерились веса между всеми модальностями, но на входе были замороженные энкодеры (и, опционально, декодеры на выходе). В итоге гипотезы статьи подтвердились и в сетапе с тремя модальностями, где учились сразу на тексте, картинках и аудио. Еще из прикольных аблейшенов:
- Если и картинки и текст предоставляют какую-то информацию из общего семантического пространства, то how many words is an image worth? Для CLIP'а они находят, что 1 картинка = 228 словам в плане улучшения аккураси модели
- Авторы находят внутри сетки мультимодальные нейроны, которые отвечают на один и тот же концепт во всех модальностях, даже с учетом того, что в датасете не было параллельных примеров (где например текст четко бы соотвествовал какой-то картинке или аудио дорожке)
BY я обучала одну модель

Share with your friend now:
tgoop.com/def_model_train/1074
