QUANT_PRUNE_DISTILL Telegram 14
Группы для квантования могут быть различного размера - можно зафиксировать один масштаб на весь тензор, но так как разные измерения тензора могут сильно отличаться масштабом, то шаг квантования (разность между ближайшими возможными значениями) может быть слишком велик для точного представления весов, посему выгодно брать меньшие группы, фиксируя масштаб для одной размености, скажем, либо даже для меньшей группы соседних весов. Однако, если брать слишком маленькие группы - то память, выделяемая на хранение scale, cтановится довольно существенной. Скажем, если хранить scale в fp32, то для при квантовании в группы из 64 весов, скейлы уже будут давать дополнительные 32 / 64 = 0.5 бита в среднем.

Возникает идея - а почему бы и не заквантовать сами скейлы (и так до бесконечности, но авторы решили ограничиться двумя квантованиями). В данной работе scale квантуется группами по 256 весов в 8 бит, что снижает накладные расходы на их использование до 8 / 64 + 32 / (64 * 256) = 0.127 бит в среднем на параметр. Данная процедура не приводит к просадке качества, но дает существенную экономию по памяти.



tgoop.com/quant_prune_distill/14
Create:
Last Update:

Группы для квантования могут быть различного размера - можно зафиксировать один масштаб на весь тензор, но так как разные измерения тензора могут сильно отличаться масштабом, то шаг квантования (разность между ближайшими возможными значениями) может быть слишком велик для точного представления весов, посему выгодно брать меньшие группы, фиксируя масштаб для одной размености, скажем, либо даже для меньшей группы соседних весов. Однако, если брать слишком маленькие группы - то память, выделяемая на хранение scale, cтановится довольно существенной. Скажем, если хранить scale в fp32, то для при квантовании в группы из 64 весов, скейлы уже будут давать дополнительные 32 / 64 = 0.5 бита в среднем.

Возникает идея - а почему бы и не заквантовать сами скейлы (и так до бесконечности, но авторы решили ограничиться двумя квантованиями). В данной работе scale квантуется группами по 256 весов в 8 бит, что снижает накладные расходы на их использование до 8 / 64 + 32 / (64 * 256) = 0.127 бит в среднем на параметр. Данная процедура не приводит к просадке качества, но дает существенную экономию по памяти.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/14

View MORE
Open in Telegram


Telegram News

Date: |

In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. Activate up to 20 bots Clear
from us


Telegram КПД
FROM American