tgoop.com/neuraldeep/1561
Create:
Last Update:
Last Update:
gpt-oss-120b запуск на 4090/3090 часть 2
И так по подсказке подписчика @dvv101111 я переехал на llama.cpp он так же проверил что на его х4 4090(24gb) все запустится и не будет проблем
Брал я эти веса
Далее тесты и что мы имеем
На простые запросы не более 1к токенов 101-122 t/s
| Фаза | Токен | Скорость |
| Prompt | ~11к | ~1.6к t/s |
| Gen | ~1к | ~89.2 t/s |
Заняло все это чудо в 120b
73GB
на 32768
токенов контекстаТак же прикладываю внутренний тест rag_qa 558 вопросов по внутренней корп базе знаний red_mad_robot (что успел прогнать сегодня за вечер)
Вопросы включают в себя работу с контекстом от 3-16к токенов
Промпты заточены под 7b модельку (извлечение данных + следование инструкции)
Валидация по методу llm as judge gpt-4o
Учитывая, что Qwen модели тюнились под русский язык и были специально заточены под наш RAG, считаю что gpt-oss-120b на конфигурации 2x4090 (48GB) может стать лучшей заменой, как только её оптимизируют под vLLM и затюнят под ру
120 t/s - это не шутки
BY Neural Kovalskii

Share with your friend now:
tgoop.com/neuraldeep/1561