tgoop.com/quant_prune_distill/29
Last Update:
Таким образом, с одной стороны авторы получают довольно качественного чатбота. И заодно делают вывод про то, что в разные датасеты заточены под разные свойства модели. Скажем, FLANv2, лучший для прокачки модели под понимание языка, не столь хорош для создания чатбота, и наоборот для OpenAssistant.
И самое приятное, для обучения самой большой версии Guanaco не требуется значительных ресурсов. Всего день на одной RTX A6000 (хоть и много больше бесплатного колаба).
Есть демка модели на huggingface и несколько нотбуков на странице проекта. Примечателен ноутбук с файнтьюном GPTNeoX-20B на колабовской T4 c 16GIB, которая так-то весит 40 Гигов (или 20 в 8-битной квантизации).
Введеный в работе формат квантизации имплементирован в библиотеке bitsandbytes и некоторые модели (не только лишь все) можно подгружать в данном формате
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/29