QUANT_PRUNE_DISTILL Telegram 175
Результаты

PowerInfer тестируют на моделях семества OPT/LLama 2 и Falcon. Код основан на llama.cpp. Рассматривают 2 конфигурации, PC-high - с Intel i9-13900K и RTX 4090 PC-low и i7-12700K c RTX 2080Ti. Нормальные такие геймерские компы.

PowerInfer достигает впечатляющего ускорения в 11 раз на длинных последовательностях и моделях OPT-30B, Falcon-40B. На Llama 2 ускорение не столько велико (до 3х раз), но тоже весьма достойно. В PowerInfer большинство вычислений происходит на GPU, в то время, как в llama.cpp основную вычислительную нагрузку берет себя не столь быстрый CPU.

Все компоненты метода полезны, но наиболее важной, по всей видимости, является то, что критичные для вычислений нейроны сидят все время на GPU.

Метод дает ускорение и при квантизации в 4 бита.

Оверхед от предикторов холодных нейронов мизерный по сравнению с общим методом инференса.

Качество моделей не просаживается статзначимо при используемой схеме fixed + contextual sparsity (а если проверить на MMLU?).

Метод настолько хорош, что даже на относительно слабой RTX 4090 на коротких последовательностях метод уступает всего лишь на 20-30% в скорости vLLM (оптимизрованному GPU движку) на A100.

Вывод

Полезный и сильный результат, основанный на наблюдениях из прошлых работ. По существу сочетание fixed и contextual sparsity с эффективной реализацией, учитывающей специфику вычислений на CPU и GPU.
4



tgoop.com/quant_prune_distill/175
Create:
Last Update:

Результаты

PowerInfer тестируют на моделях семества OPT/LLama 2 и Falcon. Код основан на llama.cpp. Рассматривают 2 конфигурации, PC-high - с Intel i9-13900K и RTX 4090 PC-low и i7-12700K c RTX 2080Ti. Нормальные такие геймерские компы.

PowerInfer достигает впечатляющего ускорения в 11 раз на длинных последовательностях и моделях OPT-30B, Falcon-40B. На Llama 2 ускорение не столько велико (до 3х раз), но тоже весьма достойно. В PowerInfer большинство вычислений происходит на GPU, в то время, как в llama.cpp основную вычислительную нагрузку берет себя не столь быстрый CPU.

Все компоненты метода полезны, но наиболее важной, по всей видимости, является то, что критичные для вычислений нейроны сидят все время на GPU.

Метод дает ускорение и при квантизации в 4 бита.

Оверхед от предикторов холодных нейронов мизерный по сравнению с общим методом инференса.

Качество моделей не просаживается статзначимо при используемой схеме fixed + contextual sparsity (а если проверить на MMLU?).

Метод настолько хорош, что даже на относительно слабой RTX 4090 на коротких последовательностях метод уступает всего лишь на 20-30% в скорости vLLM (оптимизрованному GPU движку) на A100.

Вывод

Полезный и сильный результат, основанный на наблюдениях из прошлых работ. По существу сочетание fixed и contextual sparsity с эффективной реализацией, учитывающей специфику вычислений на CPU и GPU.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/175

View MORE
Open in Telegram


Telegram News

Date: |

The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. 4How to customize a Telegram channel? So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information.
from us


Telegram КПД
FROM American