Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/neural_cat/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Нейронный Кот@neural_cat P.60
NEURAL_CAT Telegram 60
Speculative Decoding

Помните слив об устройстве GPT4? А именно "OpenAI may be using Speculative Decoding in a GPT-4 conference. (Not 100% sure)". Этот пост об этом

😂 Проблема: большая языковая модель очень медленно генерирует токены

Как ускорить? Квантизация, добавить гпу, перейти на тпу, попробовать новый инференс движок, самому что-то писать на куде. Сложно! Для ускорения нужен лишь простой советский...

😋 Решение: маленькая языковая модель, которая будет помогать генерировать токены, а большая будет валидировать, насколько эти токены хороши

Шаг 1. Маленькой моделью сгенерируем последовательность
Шаг 2. Сделаем 1 forward pass большой моделью, чтобы проверить, сгенерила ли бы она сама такую последовательность. По сути, сравниваем вероятности токенов для сэмплирования и сами токены, если у нас greedy decoding/beam search
Шаг 3. Вероятнее всего, сгенерированная последовательность облажается на i-ом токене, поэтому мы исправляем i-ый токен на тот, что предлагает большая модель, и запускаем заново Шаг 1.

Итого, мы сильно уменьшили количество forward pass-ов большой модели, поэтому ускорили генерацию в несколько раз. На практике придется очень тщательно подбирать эвристику перегенерации и валидации сгенерированной последовательности. Например, маленькой моделью можно сгенерировать не всю последовательность, а только 5 токенов, провалидировать большой и, например, продолжить большой. По сути, нужно подобрать трейдофф между качеством и скоростью.

Кстати, эта фича реализована в transformers

Блог пост huggingface
Статья от DeepMind
Статья от Google Research
Please open Telegram to view this post
VIEW IN TELEGRAM
👏6



tgoop.com/neural_cat/60
Create:
Last Update:

Speculative Decoding

Помните слив об устройстве GPT4? А именно "OpenAI may be using Speculative Decoding in a GPT-4 conference. (Not 100% sure)". Этот пост об этом

😂 Проблема: большая языковая модель очень медленно генерирует токены

Как ускорить? Квантизация, добавить гпу, перейти на тпу, попробовать новый инференс движок, самому что-то писать на куде. Сложно! Для ускорения нужен лишь простой советский...

😋 Решение: маленькая языковая модель, которая будет помогать генерировать токены, а большая будет валидировать, насколько эти токены хороши

Шаг 1. Маленькой моделью сгенерируем последовательность
Шаг 2. Сделаем 1 forward pass большой моделью, чтобы проверить, сгенерила ли бы она сама такую последовательность. По сути, сравниваем вероятности токенов для сэмплирования и сами токены, если у нас greedy decoding/beam search
Шаг 3. Вероятнее всего, сгенерированная последовательность облажается на i-ом токене, поэтому мы исправляем i-ый токен на тот, что предлагает большая модель, и запускаем заново Шаг 1.

Итого, мы сильно уменьшили количество forward pass-ов большой модели, поэтому ускорили генерацию в несколько раз. На практике придется очень тщательно подбирать эвристику перегенерации и валидации сгенерированной последовательности. Например, маленькой моделью можно сгенерировать не всю последовательность, а только 5 токенов, провалидировать большой и, например, продолжить большой. По сути, нужно подобрать трейдофф между качеством и скоростью.

Кстати, эта фича реализована в transformers

Блог пост huggingface
Статья от DeepMind
Статья от Google Research

BY Нейронный Кот


Share with your friend now:
tgoop.com/neural_cat/60

View MORE
Open in Telegram


Telegram News

Date: |

A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. SUCK Channel Telegram Telegram users themselves will be able to flag and report potentially false content. The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture.
from us


Telegram Нейронный Кот
FROM American