Neural Kovalskii@neuraldeep P.1536

Neural Kovalskii

Новый топ в open-source среди ру моделей 30b +?

И так пока я мчу на сапсане в МСК разберу новинку от t-tech

T-pro-it-2.0 (qwen3-32b)

Запустил я модельку на нашем кластере х2 4090(48 гб модифицированные)

"Без спекулятивки"

Влезли все те же 120к токенов в (кто забыл как настраивать rope_scaling в сonfig.json)

"rope_scaling": {
"factor": 4.0,
"original_max_position_embeddings": 32768,
"type": "yarn"
},

Сходу пару базовых сюпризов 1) пришлось уйти на самую последнюю версию vllm 2) поднять версии драйверов (nvdidia+cuda)

Как вы помните я тестировал тут qwen coder и T-pro-it-1.0 он же (qwen2.5-32b-instruct)
средняя скорость чтения в одном потоке 800 т/с чтение и 22 т/c генерация

Модель рассуждающая так что она будет пулять еще поле think (бюджетом на рассуждение пока можно управлять через систем промпт возможно в vLLM появится поддержка budget)

Либо можно передать параметр "enable_thinking": False и отключить расждуения вовсе

stream = client.chat.completions.create(
    model="qwen3-32b",
    messages=[{"role": "user", "content": "Реши: 2x + 5 = 13"}],
    stream=True,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)

--reasoning-parser qwen3

Такое нужно для передачи отдельного поля reasoning_content в ответе что хорошо расширят кол-во сценариев при работе с такой моделью

————————————————————————-
И так скорость честно я ожидал чуть больше исходя из того что проделали ребята из t-tech

Чтение в одном потоке 920 т/с чтение и 24.7 т/c генерация прирост составил 2.7 токена в секунду на моих кейсах что тоже неплохо!

Дальше я буду делать замеры на задачах
RAG (наш бенч) + Задачи классификации контента
SO погоняю большие схемы

Генерация отличная чистая без китайский иероглифов и артефактов, конечно же модель запущена в FP16 без квантов

🔥34👍10🤔21

www.tgoop.com/neuraldeep/1536

5.56K viewsedited Jul 19 at 03:46

tgoop.com/neuraldeep/1536

Create: 2025-07-19
Last Update: 2025-10-17 19:39:56

"rope_scaling": {
"factor": 4.0,
"original_max_position_embeddings": 32768,
"type": "yarn"
},

stream = client.chat.completions.create(
    model="qwen3-32b",
    messages=[{"role": "user", "content": "Реши: 2x + 5 = 13"}],
    stream=True,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)

--reasoning-parser qwen3

BY Neural Kovalskii

Share with your friend now:
tgoop.com/neuraldeep/1536

Telegram News

Новый топ в open-source среди ру моделей 30b +?