AI для Всех@nn_for

AI для Всех

EfficientLLM: короткий разбор

Исследователи прогнали 100+ конфигураций LLM/VLM и мерили не только качество, но и память, задержку и энергию. Универсального победителя нет: выбирайте технику под свой главный bottleneck — VRAM, латентность, энергия или метрики.

Я люблю исследования, где считают не мифические FLOPs, а как это реально выглядит на проде. Здесь так и сделали: сравнили виды внимания (память против качества), позиционирование (удобство длинного контекста против скорости), MoE (экономия вычислений, но дороже по памяти), способы дообучения (LoRA-семейство, RSLoRA, заморозка слоёв) и квантизацию вплоть до int4.

Главные выводы:
• Если упираетесь в память/скорость — варианты внимания с «меньше ключей/голов» дают ощутимую экономию VRAM и времени отклика.
• Если нужна максимальная точность - берите более «тяжёлые» варианты внимания и RoPE; цена - ресурсы.
• MoE поднимает качество при той же «активной» вычислительной цене, но потребует больше VRAM и усложнит прод.
• Файнтюнинг: на маленьких моделях (≈1–3B) практичнее LoRA-семейство; на крупных (≈14B+) чаще выигрывает RSLoRA. Для быстрых итераций заморозка слоёв даёт кратный прирост скорости.
• Инференс: пост-квантизация в int4 - серьезный буст по $/Вт/ГБ с небольшой просадкой качества. Если не хотите терять точность, bf16 обычно приятнее fp16 на современных GPU.

Шпаргалка на завтра
• Мало VRAM → «экономное» внимание + относительные позиции, тюним LoRA, пробуем int4.
• Качество first → «точное» внимание + RoPE, RSLoRA; инференс bf16.
• Уперлись в compute → смотрим MoE, но заранее считаем VRAM и сложность.
• Нужны быстрые циклы → временно freeze, затем переключаемся на LoRA/RSLoRA.

Ваш ход: что болит сильнее - память, задержка, энергия или качество? Напишите в комментах свой кейс, а если пост был полезен — поделитесь с коллегами 🙌

Статья

🔥18👍8❤5

www.tgoop.com/nn_for_science/2522

5.51K viewsAug 22 at 15:21

tgoop.com/nn_for_science/2522

Create: 2025-08-22
Last Update: 2025-10-11 20:37:47

BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2522

Telegram News

EfficientLLM: короткий разбор