tgoop.com/neuraldeep/1476
Last Update:
Доброе утро всем!
Продолжаем тесты RTX 4090 (48GB). Наконец сегодня дошли руки доделать адекватный тест с мониторингом всех performance-графиков пока что два простеньких теста х5 и х10 реквестов с разным размером контекста
Сейчас делал замеры на скорость:
- Чтения
- Генерации
- И нагрузки GPU
Как держит разную нагрузку именно под полным и неполным контекстом с FP16 моделькой и какое кол-во реквестов (батч) оптимальное
На тесте сегодня у нас Qwen2.5-Coder-32B-Instruct
Задача: прочитать большой код 15к токенов и найти нужные мне функции, описать их, разобрать функционал (простая задача, с этим модель справилась, как всегда, отлично).
Из интересного: если правильно нарезать задачу, то в целом можно выжать из такого конфига — а напомню, у нас x2 RTX 4090 (48GB) Max Concurrency 2.76x 32к token:
- Prompt Speed: 1,017 tok/s
- Generation: 164.2 tok/s
С результатами можно ознакомиться тут и скриншоты подробнее в комментариях
За предоставленные карты на тест отдельное спасибо https://riverstrom.ai
#x2_409048GB
BY Neural Deep

Share with your friend now:
tgoop.com/neuraldeep/1476