MACHINELEARNING_BOOKS Telegram 1167
Forwarded from Machinelearning
Speculative Cascades — как ускорить работу LLM

Google Research придумали новый способ сделать большие языковые модели быстрее и дешевле.

Что это такое:
🔹 Каскады
Сначала отвечает маленькая модель. Если задача слишком сложная - подключается большая. Так экономятся ресурсы, но качество может прыгать.

🔹 Спекулятивная декодировка
Маленькая модель угадывает сразу несколько слов вперёд. Большая быстро проверяет данные и подтверждает. Скорость выше, но большая модель всё равно тратит много ресурсов.

🟢 Speculative Cascades
Это комбинация: маленькая модель иногда отвечает полностью сама, а иногда используется как ускоритель для большой. В итоге получаем меньше затрат, больше скорости и то же качество.

🔥Что показали тесты (тестили на Gemma, T5):
- быстрее, чем обычная спекулятивная декодировка
- дешевле и качественнее, чем каскады
- удобнее настраивать баланс «скорость качество»

При том же уровне качества, что и у спекулятивной декодировки, новый метод работает быстрее (генерирует больше токенов за один вызов большой модели).

А в задачах математических рассуждений получен явный апгрейд по скорости при сохранении или даже улучшении качества.

LLM всё чаще используются в поиске, чатах, ассистентах. Чтобы они реально были полезными, их нужно ускорять и удешевлять. *Speculative cascades* помогают это сделать без потери качества.

🔗 Подробнее: https://research.google/blog/speculative-cascades-a-hybrid-approach-for-smarter-faster-llm-inference/

@ai_machinelearning_big_data


#AI #LLM #Inference #SpeculativeDecoding #Cascades #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1



tgoop.com/machinelearning_books/1167
Create:
Last Update:

Speculative Cascades — как ускорить работу LLM

Google Research придумали новый способ сделать большие языковые модели быстрее и дешевле.

Что это такое:
🔹 Каскады
Сначала отвечает маленькая модель. Если задача слишком сложная - подключается большая. Так экономятся ресурсы, но качество может прыгать.

🔹 Спекулятивная декодировка
Маленькая модель угадывает сразу несколько слов вперёд. Большая быстро проверяет данные и подтверждает. Скорость выше, но большая модель всё равно тратит много ресурсов.

🟢 Speculative Cascades
Это комбинация: маленькая модель иногда отвечает полностью сама, а иногда используется как ускоритель для большой. В итоге получаем меньше затрат, больше скорости и то же качество.

🔥Что показали тесты (тестили на Gemma, T5):
- быстрее, чем обычная спекулятивная декодировка
- дешевле и качественнее, чем каскады
- удобнее настраивать баланс «скорость качество»

При том же уровне качества, что и у спекулятивной декодировки, новый метод работает быстрее (генерирует больше токенов за один вызов большой модели).

А в задачах математических рассуждений получен явный апгрейд по скорости при сохранении или даже улучшении качества.

LLM всё чаще используются в поиске, чатах, ассистентах. Чтобы они реально были полезными, их нужно ускорять и удешевлять. *Speculative cascades* помогают это сделать без потери качества.

🔗 Подробнее: https://research.google/blog/speculative-cascades-a-hybrid-approach-for-smarter-faster-llm-inference/

@ai_machinelearning_big_data


#AI #LLM #Inference #SpeculativeDecoding #Cascades #GoogleResearch

BY Машиннное обучение | Наука о данных Библиотека








Share with your friend now:
tgoop.com/machinelearning_books/1167

View MORE
Open in Telegram


Telegram News

Date: |

Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS): Users are more open to new information on workdays rather than weekends.
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American