Neural Deep@neuraldeep P.1012

Neural Deep

Привет всем!

Хочу поделиться своими последними успехами в работе с LLama-3.1-70b в тему предыдущего поста

Удалось запустить LLama-3.1-70B в динамической квантизации FP8 на 16K контекста, и самое главное, это получилось сделать на четырёх картах 4090. Это круто, учитывая все заморочки с памятью и настройками и выделением места под кэш.

Но не всё было так гладко с самого начала. Когда я только начинал запускать модель, возникли проблемы с p2p конфигом, который создавался криво. Плюс, Ray бекенд для выполнения модели на нескольких карточках тоже не сразу заработал как надо. Я долго не мог понять, почему при 96 GB VRAM у меня не влезало больше 6K контекста. Это было реально грустно и не понятно.

После трёх или четырёх дней тестов и экспериментов я наконец-то нашёл оптимальный конфиг для запуска модели. Это было непросто, но результат того стоил.

Проведя кучу тестов по нашим RAG доменам, я понял, что текущий тест выбивает 100% точность, что делает его невалидным. Придётся придумать новый тест для более точной оценки.

Что касается возможностей модели, вот что мы проверили:

1. Обобщение текстов: Модель отлично справляется, точно следуя контексту.
2. Разметка текста: Тесты по разметке и NER (Named Entity Recognition) показали улучшение точности на 10-25%.
3. Работа в режиме агента с tool_use: Модель показала высокую эффективность, особенно при запоминании seed и 0 температуре, ошибка на тесте вызове тулзов составила 0 на 100 примерах запросов.

Также оценили работу модели re-ranking. В 9 из 10 случаев модель давала адекватную оценку релевантности чанков до и после реранжирования в RAG подходе.

Производительность модели оказалась следующей:

- Чтение: Средняя скорость обработки prompt — 1418.7 токенов в секунду, средняя скорость генерации — 0.5 токенов в секунду. Использование GPU KV cache — 34.4%

- Генерация: Средняя скорость обработки prompt — 0.0 токенов в секунду, средняя скорость генерации — 36.0 токенов в секунду. Использование GPU KV cache — 35.1%

Эти данные показывают, что нам ещё нужно искать подходы для ускорения генерации, чтобы добиться более высокой производительности.

И вот самое приятное: теперь сервер стоит не 1,5 миллиона рублей в месяц, а всего 240 тысяч рублей! Карл, это в 6 раз дешевле! Это огромная экономия, которая делает использование таких мощных моделей гораздо более доступным.

В общем, LLama-3.1-70B в динамической квантизации FP8 на 16K контекста на четырёх картах 4090 показала себя с лучшей стороны. Будем продолжать тестирование и оптимизацию, чтобы добиться ещё лучших результатов.

Прикладываю картинки:

1-2. Запуск на 4 4090 и нагрузка на сервер и его конфиги.
3. Тесты модели при проверке реранжирования.

🔥8🤔4👍1

www.tgoop.com/neuraldeep/1012

1.37K viewsValerii Kovalskii, Aug 2, 2024 at 07:45

tgoop.com/neuraldeep/1012

Create: 2024-08-02
Last Update: 2025-07-24 06:44:55

BY Neural Deep

Share with your friend now:
tgoop.com/neuraldeep/1012

Telegram News

Привет всем!