NN_FOR_SCIENCE Telegram 2522
EfficientLLM: короткий разбор

Исследователи прогнали 100+ конфигураций LLM/VLM и мерили не только качество, но и память, задержку и энергию. Универсального победителя нет: выбирайте технику под свой главный bottleneck — VRAM, латентность, энергия или метрики.

Я люблю исследования, где считают не мифические FLOPs, а как это реально выглядит на проде. Здесь так и сделали: сравнили виды внимания (память против качества), позиционирование (удобство длинного контекста против скорости), MoE (экономия вычислений, но дороже по памяти), способы дообучения (LoRA-семейство, RSLoRA, заморозка слоёв) и квантизацию вплоть до int4.

Главные выводы:
Если упираетесь в память/скорость — варианты внимания с «меньше ключей/голов» дают ощутимую экономию VRAM и времени отклика.
Если нужна максимальная точность - берите более «тяжёлые» варианты внимания и RoPE; цена - ресурсы.
MoE поднимает качество при той же «активной» вычислительной цене, но потребует больше VRAM и усложнит прод.
Файнтюнинг: на маленьких моделях (≈1–3B) практичнее LoRA-семейство; на крупных (≈14B+) чаще выигрывает RSLoRA. Для быстрых итераций заморозка слоёв даёт кратный прирост скорости.
Инференс: пост-квантизация в int4 - серьезный буст по $/Вт/ГБ с небольшой просадкой качества. Если не хотите терять точность, bf16 обычно приятнее fp16 на современных GPU.

Шпаргалка на завтра
• Мало VRAM → «экономное» внимание + относительные позиции, тюним LoRA, пробуем int4.
• Качество first → «точное» внимание + RoPE, RSLoRA; инференс bf16.
• Уперлись в compute → смотрим MoE, но заранее считаем VRAM и сложность.
• Нужны быстрые циклы → временно freeze, затем переключаемся на LoRA/RSLoRA.

Ваш ход: что болит сильнее - память, задержка, энергия или качество? Напишите в комментах свой кейс, а если пост был полезен — поделитесь с коллегами 🙌

Статья
🔥18👍85



tgoop.com/nn_for_science/2522
Create:
Last Update:

EfficientLLM: короткий разбор

Исследователи прогнали 100+ конфигураций LLM/VLM и мерили не только качество, но и память, задержку и энергию. Универсального победителя нет: выбирайте технику под свой главный bottleneck — VRAM, латентность, энергия или метрики.

Я люблю исследования, где считают не мифические FLOPs, а как это реально выглядит на проде. Здесь так и сделали: сравнили виды внимания (память против качества), позиционирование (удобство длинного контекста против скорости), MoE (экономия вычислений, но дороже по памяти), способы дообучения (LoRA-семейство, RSLoRA, заморозка слоёв) и квантизацию вплоть до int4.

Главные выводы:
Если упираетесь в память/скорость — варианты внимания с «меньше ключей/голов» дают ощутимую экономию VRAM и времени отклика.
Если нужна максимальная точность - берите более «тяжёлые» варианты внимания и RoPE; цена - ресурсы.
MoE поднимает качество при той же «активной» вычислительной цене, но потребует больше VRAM и усложнит прод.
Файнтюнинг: на маленьких моделях (≈1–3B) практичнее LoRA-семейство; на крупных (≈14B+) чаще выигрывает RSLoRA. Для быстрых итераций заморозка слоёв даёт кратный прирост скорости.
Инференс: пост-квантизация в int4 - серьезный буст по $/Вт/ГБ с небольшой просадкой качества. Если не хотите терять точность, bf16 обычно приятнее fp16 на современных GPU.

Шпаргалка на завтра
• Мало VRAM → «экономное» внимание + относительные позиции, тюним LoRA, пробуем int4.
• Качество first → «точное» внимание + RoPE, RSLoRA; инференс bf16.
• Уперлись в compute → смотрим MoE, но заранее считаем VRAM и сложность.
• Нужны быстрые циклы → временно freeze, затем переключаемся на LoRA/RSLoRA.

Ваш ход: что болит сильнее - память, задержка, энергия или качество? Напишите в комментах свой кейс, а если пост был полезен — поделитесь с коллегами 🙌

Статья

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2522

View MORE
Open in Telegram


Telegram News

Date: |

bank east asia october 20 kowloon Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. SUCK Channel Telegram Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots.
from us


Telegram AI для Всех
FROM American