Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/neuraldeep/-1011-1012-1013-997-): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Neural Deep@neuraldeep P.1013
NEURALDEEP Telegram 1013
Привет всем!

Хочу поделиться своими последними успехами в работе с LLama-3.1-70b в тему предыдущего поста

Удалось запустить LLama-3.1-70B в динамической квантизации FP8 на 16K контекста, и самое главное, это получилось сделать на четырёх картах 4090. Это круто, учитывая все заморочки с памятью и настройками и выделением места под кэш.

Но не всё было так гладко с самого начала. Когда я только начинал запускать модель, возникли проблемы с p2p конфигом, который создавался криво. Плюс, Ray бекенд для выполнения модели на нескольких карточках тоже не сразу заработал как надо. Я долго не мог понять, почему при 96 GB VRAM у меня не влезало больше 6K контекста. Это было реально грустно и не понятно.

После трёх или четырёх дней тестов и экспериментов я наконец-то нашёл оптимальный конфиг для запуска модели. Это было непросто, но результат того стоил.

Проведя кучу тестов по нашим RAG доменам, я понял, что текущий тест выбивает 100% точность, что делает его невалидным. Придётся придумать новый тест для более точной оценки.

Что касается возможностей модели, вот что мы проверили:

1. Обобщение текстов: Модель отлично справляется, точно следуя контексту.
2. Разметка текста: Тесты по разметке и NER (Named Entity Recognition) показали улучшение точности на 10-25%.
3. Работа в режиме агента с tool_use: Модель показала высокую эффективность, особенно при запоминании seed и 0 температуре, ошибка на тесте вызове тулзов составила 0 на 100 примерах запросов.

Также оценили работу модели re-ranking. В 9 из 10 случаев модель давала адекватную оценку релевантности чанков до и после реранжирования в RAG подходе.

Производительность модели оказалась следующей:

- Чтение: Средняя скорость обработки prompt — 1418.7 токенов в секунду, средняя скорость генерации — 0.5 токенов в секунду. Использование GPU KV cache — 34.4%

- Генерация: Средняя скорость обработки prompt — 0.0 токенов в секунду, средняя скорость генерации — 36.0 токенов в секунду. Использование GPU KV cache — 35.1%

Эти данные показывают, что нам ещё нужно искать подходы для ускорения генерации, чтобы добиться более высокой производительности.

И вот самое приятное: теперь сервер стоит не 1,5 миллиона рублей в месяц, а всего 240 тысяч рублей! Карл, это в 6 раз дешевле! Это огромная экономия, которая делает использование таких мощных моделей гораздо более доступным.

В общем, LLama-3.1-70B в динамической квантизации FP8 на 16K контекста на четырёх картах 4090 показала себя с лучшей стороны. Будем продолжать тестирование и оптимизацию, чтобы добиться ещё лучших результатов.

Прикладываю картинки:

1-2. Запуск на 4 4090 и нагрузка на сервер и его конфиги.
3. Тесты модели при проверке реранжирования.
🔥8🤔4👍1



tgoop.com/neuraldeep/1013
Create:
Last Update:

Привет всем!

Хочу поделиться своими последними успехами в работе с LLama-3.1-70b в тему предыдущего поста

Удалось запустить LLama-3.1-70B в динамической квантизации FP8 на 16K контекста, и самое главное, это получилось сделать на четырёх картах 4090. Это круто, учитывая все заморочки с памятью и настройками и выделением места под кэш.

Но не всё было так гладко с самого начала. Когда я только начинал запускать модель, возникли проблемы с p2p конфигом, который создавался криво. Плюс, Ray бекенд для выполнения модели на нескольких карточках тоже не сразу заработал как надо. Я долго не мог понять, почему при 96 GB VRAM у меня не влезало больше 6K контекста. Это было реально грустно и не понятно.

После трёх или четырёх дней тестов и экспериментов я наконец-то нашёл оптимальный конфиг для запуска модели. Это было непросто, но результат того стоил.

Проведя кучу тестов по нашим RAG доменам, я понял, что текущий тест выбивает 100% точность, что делает его невалидным. Придётся придумать новый тест для более точной оценки.

Что касается возможностей модели, вот что мы проверили:

1. Обобщение текстов: Модель отлично справляется, точно следуя контексту.
2. Разметка текста: Тесты по разметке и NER (Named Entity Recognition) показали улучшение точности на 10-25%.
3. Работа в режиме агента с tool_use: Модель показала высокую эффективность, особенно при запоминании seed и 0 температуре, ошибка на тесте вызове тулзов составила 0 на 100 примерах запросов.

Также оценили работу модели re-ranking. В 9 из 10 случаев модель давала адекватную оценку релевантности чанков до и после реранжирования в RAG подходе.

Производительность модели оказалась следующей:

- Чтение: Средняя скорость обработки prompt — 1418.7 токенов в секунду, средняя скорость генерации — 0.5 токенов в секунду. Использование GPU KV cache — 34.4%

- Генерация: Средняя скорость обработки prompt — 0.0 токенов в секунду, средняя скорость генерации — 36.0 токенов в секунду. Использование GPU KV cache — 35.1%

Эти данные показывают, что нам ещё нужно искать подходы для ускорения генерации, чтобы добиться более высокой производительности.

И вот самое приятное: теперь сервер стоит не 1,5 миллиона рублей в месяц, а всего 240 тысяч рублей! Карл, это в 6 раз дешевле! Это огромная экономия, которая делает использование таких мощных моделей гораздо более доступным.

В общем, LLama-3.1-70B в динамической квантизации FP8 на 16K контекста на четырёх картах 4090 показала себя с лучшей стороны. Будем продолжать тестирование и оптимизацию, чтобы добиться ещё лучших результатов.

Прикладываю картинки:

1-2. Запуск на 4 4090 и нагрузка на сервер и его конфиги.
3. Тесты модели при проверке реранжирования.

BY Neural Deep






Share with your friend now:
tgoop.com/neuraldeep/1013

View MORE
Open in Telegram


Telegram News

Date: |

With the “Bear Market Screaming Therapy Group,” we’ve now transcended language. 1What is Telegram Channels? Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. How to create a business channel on Telegram? (Tutorial) During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month.
from us


Telegram Neural Deep
FROM American