PYTHONL Telegram 5020
Forwarded from Machinelearning
⚡️ GGUF-версии GPT-OSS от Unsloth.

Unsloth конвертировали обе GPT-OSS (20B и 120B) и исправили ошибки, чтобы повысить качество инференса.

🟡Оптимальный сетап:

🟢20B работает со скоростью более 10 токенов/с при полной точности на 14 ГБ оперативной памяти.

🟢120B с полной точностью будет давать >40 токенов/с на примерно 64 ГБ ОЗУ.

Минимальных требований для запуска моделей нет, запуститься можно даже если у вас всего 6 ГБ и только CPU, но инференс будет медленнее.

GPU не требуется , особенно для модели 20B, но его наличие значительно увеличивает скорость вывода (~80 токенов/с). С чем-то вроде H100 можно получить пропускную способность 140 токенов/с, и это значительно быстрее, чем у OpenAI в ChatGPT.

Модели можно запустить через llama.cpp, LM Studio или Open WebUI. Если модель 120B слишком медленная, попробуйте версию 20B - она очень быстрая и работает не хуже o3-mini.

Помимо моделей формата GGUF c полной точностью, Unsloth сделали версии с 4-bit и 16-bit точностью. 4-бинтый квант, кстати, можно файнтюнить на 24 ГБ VRAM.

📌 Подробная пошаговая инструкция по локальному запуску и файнтюну - в документации Unsloth.


🟡Набор моделей
🟡Документация


@ai_machinelearning_big_data

#AI #ML #GPTOSS #GGUF #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
👍97🔥4



tgoop.com/pythonl/5020
Create:
Last Update:

⚡️ GGUF-версии GPT-OSS от Unsloth.

Unsloth конвертировали обе GPT-OSS (20B и 120B) и исправили ошибки, чтобы повысить качество инференса.

🟡Оптимальный сетап:

🟢20B работает со скоростью более 10 токенов/с при полной точности на 14 ГБ оперативной памяти.

🟢120B с полной точностью будет давать >40 токенов/с на примерно 64 ГБ ОЗУ.

Минимальных требований для запуска моделей нет, запуститься можно даже если у вас всего 6 ГБ и только CPU, но инференс будет медленнее.

GPU не требуется , особенно для модели 20B, но его наличие значительно увеличивает скорость вывода (~80 токенов/с). С чем-то вроде H100 можно получить пропускную способность 140 токенов/с, и это значительно быстрее, чем у OpenAI в ChatGPT.

Модели можно запустить через llama.cpp, LM Studio или Open WebUI. Если модель 120B слишком медленная, попробуйте версию 20B - она очень быстрая и работает не хуже o3-mini.

Помимо моделей формата GGUF c полной точностью, Unsloth сделали версии с 4-bit и 16-bit точностью. 4-бинтый квант, кстати, можно файнтюнить на 24 ГБ VRAM.

📌 Подробная пошаговая инструкция по локальному запуску и файнтюну - в документации Unsloth.


🟡Набор моделей
🟡Документация


@ai_machinelearning_big_data

#AI #ML #GPTOSS #GGUF #Unsloth

BY Python/ django




Share with your friend now:
tgoop.com/pythonl/5020

View MORE
Open in Telegram


Telegram News

Date: |

A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. How to create a business channel on Telegram? (Tutorial) Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013.
from us


Telegram Python/ django
FROM American