tgoop.com/notboring_tech/3775
Last Update:
⚡️ Meta* совершила революцию в ИИ и представила RAG 2.0 — исследователи научились ускорять LLM в 30 (!!!) раз и обрабатывать в 16 раз больше контекста без потери точности.
Объясняю за минуту на пальцах:
• Основная проблема: увеличение длины документа в 2 раза замедляет работу ИИ в 4 раза. ИИ внимательно читает каждое слово, теряя много времени и ресурсов.
• Новый фреймворк REFRAG решает эту проблему и построен на «трёх китах»:
1. Кодировщик считывает полученный документ и сжимает каждый фрагмент текста из 16 токенов в единый плотный вектор (chunk embedding). При этом все важные данные не сжимаются.
2. Основной LLM съедает эти эмбеддинги вместо исходных токенов и уменьшает объём контекста аж в 16 раз.
3. Фреймворк минимизирует ненужные вычисления (квадратичное внимание и кэш значений) и ускоряет первый ответ в 30 раз, а всю обработку — в 7 раз.
• REFRAG уже протестировали в RAG, диалогах и задачах с большими документами — новая система превосходит даже LLaMA и ведущие модели, сохраняя точность.
Инвестиции Цукерберга наконец-то окупаются! В перспективе REFRAG — новый стандарт в RAG-системах, чат-ботах и агентах для веб-поиска. Работу можно почитать здесь, а исходный код скоро выйдет на GitHub.
*Meta запрещена в России.
@notboring_tech
BY Not Boring Tech

Share with your friend now:
tgoop.com/notboring_tech/3775
