tgoop.com/neuraldeep/1536
Create:
Last Update:
Last Update:
Новый топ в open-source среди ру моделей 30b +?
И так пока я мчу на сапсане в МСК разберу новинку от t-tech
T-pro-it-2.0 (qwen3-32b)
Запустил я модельку на нашем кластере х2 4090(48 гб модифицированные)
"Без спекулятивки"
Влезли все те же 120к токенов в (кто забыл как настраивать rope_scaling в сonfig.json)
"rope_scaling": {
"factor": 4.0,
"original_max_position_embeddings": 32768,
"type": "yarn"
},
Сходу пару базовых сюпризов 1) пришлось уйти на самую последнюю версию vllm 2) поднять версии драйверов (nvdidia+cuda)
Как вы помните я тестировал тут qwen coder и T-pro-it-1.0 он же (qwen2.5-32b-instruct)
средняя скорость чтения в одном потоке 800 т/с чтение и 22 т/c генерация
Модель рассуждающая так что она будет пулять еще поле think (бюджетом на рассуждение пока можно управлять через систем промпт возможно в vLLM появится поддержка
budget
) Либо можно передать параметр
"enable_thinking": False
и отключить расждуения вовсеstream = client.chat.completions.create(
model="qwen3-32b",
messages=[{"role": "user", "content": "Реши: 2x + 5 = 13"}],
stream=True,
extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)
Такой подход передает в шаблон
prompt: '<|im_start|>user\nРеши: 2x + 5 = 13<|im_end|>\n<|im_start|>assistant\n
<think>\n\n</think>
\n\n'Что в свою очередь отключает размыления
Еще можно включить
--reasoning-parser qwen3
Такое нужно для передачи отдельного поля
reasoning_content
в ответе что хорошо расширят кол-во сценариев при работе с такой моделью————————————————————————-
И так скорость честно я ожидал чуть больше исходя из того что проделали ребята из t-tech
Чтение в одном потоке 920 т/с чтение и 24.7 т/c генерация прирост составил 2.7 токена в секунду на моих кейсах что тоже неплохо!
Дальше я буду делать замеры на задачах
RAG (наш бенч) + Задачи классификации контента
SO погоняю большие схемы
Генерация отличная чистая без китайский иероглифов и артефактов, конечно же модель запущена в FP16 без квантов
BY Neural Kovalskii
Share with your friend now:
tgoop.com/neuraldeep/1536