tgoop.com/neuraldeep/1608
Last Update:
Новый быстрый REFRAG — не очень сильно-то и хотелось.
Все как с ума посходили в соседних чатах и каналах. Смотри, новый супер быстрый RAG.
Идея там у авторов еще благая, мол чанки семантически могут быть не связаны, поиск размывает информацию, квадратичная сложность внимания и т.п. Святые люди да?
Итого, идея:
1. Берем крч, нарезаем текст подсказок, к примеру, на малые чанки по 16 токенов.
2. Эмбедим их любым понравившимся вам энкодером. Можно small/tiny/base и т.п.
3. Прогоняем через модель награды. Ага, еще её бы обучить, разметку под неё где-то потратиться собрать.
4. Хорошие по награде тексты остаются без пожатия и как есть идут в LM, а остальные передаются в виде векторов из п. 2.
5. Делаем супир пупир генерацию. Делай легче, делай играюче, кайфуй.
Суммируем: мы имеем теперь 2 модели помимо LM. Одну из них над еще обучить, разметку собрать. Далее нам еще надо помимо in-context подсказок, создать спец. токены под эмбы подсказок, неважных для политики награды. А еще нужно LM научить с таким сетапом работать, поверьте иначе нормально не заведётся. Это как p-tune. Или как fromage для image-embs.
И что легче вам стало?)
За скорость вы заплатили +1 моделью, +1 разметкой и +2 тюнами. И так всегда. За скорость вы платите памятью, и прочими трудностями.
Статья тут.