QUANT_PRUNE_DISTILL Telegram 191
Результаты

Одним словом, вышло здорово.

Валидация стандартная - бенчмарки по перплексии (Wikitext2/C4) и подборка zero-shot из lm_eval_harness (ArcC, ArcE, Winogrande, PiQA).

На битностях 2,3,4 опережают известные методы по качеству почти везде. Отрыв от AQLM небольшой, но все же есть.

QuIP# достигает Парето-оптимальности при квантовании в 3 бита (отдельные конфигурации AQLM Парето-оптимальны в 2.5-2.6 битах).

Выбор решетки имеет влияние на качество модели, но дообучение неквантованных параметров накидывает больше.

Кроме того, все это хозяйство можно вполне эффективно инферить, с приемлемой производильностью. При этом авторы отвечают, что среди них нет мастеров по написанию CUDA кернелов, и можно еще ускорить генерацию.

Выводы

Сильный результат и красивая математика. Гонка по сжатию LLM становится все захватывающее. Интересно, какова же все-таки битность Парето кривой при использовании самого лучшего из возможных методов квантования моделей и как скоро мы посадим почти lossless 70b модель на сolab.
6



tgoop.com/quant_prune_distill/191
Create:
Last Update:

Результаты

Одним словом, вышло здорово.

Валидация стандартная - бенчмарки по перплексии (Wikitext2/C4) и подборка zero-shot из lm_eval_harness (ArcC, ArcE, Winogrande, PiQA).

На битностях 2,3,4 опережают известные методы по качеству почти везде. Отрыв от AQLM небольшой, но все же есть.

QuIP# достигает Парето-оптимальности при квантовании в 3 бита (отдельные конфигурации AQLM Парето-оптимальны в 2.5-2.6 битах).

Выбор решетки имеет влияние на качество модели, но дообучение неквантованных параметров накидывает больше.

Кроме того, все это хозяйство можно вполне эффективно инферить, с приемлемой производильностью. При этом авторы отвечают, что среди них нет мастеров по написанию CUDA кернелов, и можно еще ускорить генерацию.

Выводы

Сильный результат и красивая математика. Гонка по сжатию LLM становится все захватывающее. Интересно, какова же все-таки битность Парето кривой при использовании самого лучшего из возможных методов квантования моделей и как скоро мы посадим почти lossless 70b модель на сolab.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/191

View MORE
Open in Telegram


Telegram News

Date: |

The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. 3How to create a Telegram channel? During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month.
from us


Telegram КПД
FROM American