Warning: file_put_contents(aCache/aDaily/post/building_singularity/-32-33-34-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Приближаем сингулярность@building_singularity P.32
BUILDING_SINGULARITY Telegram 32
SparseGPT: сжатие 175B модели в 2 раза без потери в качестве

Для широкого распространения моделей и последующих инноваций важно, чтобы модель можно было запустить на любом чайнике не имея 8xA100 GPU. Ещё желательно, чтобы эта сжатая модель работала так же хорошо, как и исходная.

Типичные способы достигнуть этого: дистилляция в меньшую модель-ученика, квантизация (например, преобразование весов и активаций в int8), прунинг (выкидывание части весов)

В статье предлагают метод прунинга, который
- работает на очень больших моделях
- позволяет сжать в 2 раза без потери в perplexity (левый график)
- не требует дообучения
- локальный, то есть работает с отдельными матрицами весов
- за 4 часа сжимает 175B модель

Также их метод умеет в structural sparsity - когда зануляются не произвольные веса, а согласно некоторому правилу. Например, 2:4 паттерн - в последовательных блоках из 4 элементов 2 элемента нули. Тензорные ядра в A100 работают с такими матрицами в 2 раза быстрее.

На правом графике видно, что чем больше модель, тем лучше она сжимается. Интересно, какая настоящая размерность числа параметров у этих сетей, если отбросить все лишнее 🤔

Подробности в статье
🔥10👍51



tgoop.com/building_singularity/32
Create:
Last Update:

SparseGPT: сжатие 175B модели в 2 раза без потери в качестве

Для широкого распространения моделей и последующих инноваций важно, чтобы модель можно было запустить на любом чайнике не имея 8xA100 GPU. Ещё желательно, чтобы эта сжатая модель работала так же хорошо, как и исходная.

Типичные способы достигнуть этого: дистилляция в меньшую модель-ученика, квантизация (например, преобразование весов и активаций в int8), прунинг (выкидывание части весов)

В статье предлагают метод прунинга, который
- работает на очень больших моделях
- позволяет сжать в 2 раза без потери в perplexity (левый график)
- не требует дообучения
- локальный, то есть работает с отдельными матрицами весов
- за 4 часа сжимает 175B модель

Также их метод умеет в structural sparsity - когда зануляются не произвольные веса, а согласно некоторому правилу. Например, 2:4 паттерн - в последовательных блоках из 4 элементов 2 элемента нули. Тензорные ядра в A100 работают с такими матрицами в 2 раза быстрее.

На правом графике видно, что чем больше модель, тем лучше она сжимается. Интересно, какая настоящая размерность числа параметров у этих сетей, если отбросить все лишнее 🤔

Подробности в статье

BY Приближаем сингулярность






Share with your friend now:
tgoop.com/building_singularity/32

View MORE
Open in Telegram


Telegram News

Date: |

You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. Telegram Channels requirements & features ‘Ban’ on Telegram Image: Telegram. Write your hashtags in the language of your target audience.
from us


Telegram Приближаем сингулярность
FROM American