На этой неделе turboderp выпустил 3-ую версию своего фреймворка для инференса LLM.
На данный момент либа находится на стадии разработки: 📌 Есть куда расти в плане оптимизации (неоптимальная утилизация на Ampere GPU) 📌 AMD GPU (если у кого есть такие) не поддерживаются 📌 Планируют накатить интеграцию с FlashInfer 📌 На данный момент поддерживаются только Llama, Qwen, Gemma2, Mistral архитектуры.
Прошлая версия ExLlama в качестве метода квантизации брала GPTQ, но в этот раз за основу взяли тяжелую артиллерию среди низкобитных методов квантизации - адаптацию QTIP, тем самым гарантируя качество значительно лучше GGUF, особенно при экстремальном сжатии (в 2 и менее бит).
По перплексии качество выглядит и правда хорошо, интересно было бы оценить на других задачах.
На этой неделе turboderp выпустил 3-ую версию своего фреймворка для инференса LLM.
На данный момент либа находится на стадии разработки: 📌 Есть куда расти в плане оптимизации (неоптимальная утилизация на Ampere GPU) 📌 AMD GPU (если у кого есть такие) не поддерживаются 📌 Планируют накатить интеграцию с FlashInfer 📌 На данный момент поддерживаются только Llama, Qwen, Gemma2, Mistral архитектуры.
Прошлая версия ExLlama в качестве метода квантизации брала GPTQ, но в этот раз за основу взяли тяжелую артиллерию среди низкобитных методов квантизации - адаптацию QTIP, тем самым гарантируя качество значительно лучше GGUF, особенно при экстремальном сжатии (в 2 и менее бит).
По перплексии качество выглядит и правда хорошо, интересно было бы оценить на других задачах.
Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." Channel login must contain 5-32 characters Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. 1What is Telegram Channels?
from us