Neural Deep

Вылил в свет своего бота по транкрибации аудио/видео контента
Это тюн whisper под русский язык

Датасет для трейна https://huggingface.co/datasets/mozilla-foundation/common_voice_17_0
200к записей трейн 11к записей тест
60 часов на А100
Тюн запущен в боте дошел до 6.3 WER на русском

Так же обновил функционал бота по транскрибу аудио (ограничение там 19мб и примерно 20-30минут аудио)

Что нового!

Cаммари делает 4o-mini
Переработал кнопки вывода и добавил функции

- Скачиваня результата
- Саммари
- Вывода результата в чат с ботом

Еще реализовал закрепление ботом каждой таски(так можно вернутся к аудио и его результату)

672 views13:15

Neural Deep

Апдейт
По мимо загрузки
- Голосовых
- Файлов аудио (примерно все форматы так как там ffmpeg под капотом для конвертации)

Можно теперь загрузить видео
+ Появилась возможность разделить по ролям
+ Теперь есть два разных интерфейса (для групп он упрощенный)
+ Для работы в лс с ботом расширенный

Мне кажется это единственный бесплатный бот в телеграм который поддерживает и разделение по ролям и любой тип файлов до 2000 мегабайт! https://www.tgoop.com/daisytranscribe_bot

696 viewsedited 09:32

Neural Deep

Всем привет чтиво на ночь!

В тему предыдущего поста про моего STT бота

Хочу грузить файлы больших размеров в телеграм бота для работы с ними. Проблема? Да!

Если детальнее, в чем заключается проблема
Изначально Telegram боты имели ограничение на загрузку файлов размером до 50 мегабайт. Но потом и это понерфили, сделав 20 мегабайт. Это реально создает значительные трудности для моей задачи, а именно работать с большими файлами, аудио или видео более 200, 300, 400 мегабайт.

Но есть решение!
Телеграм предлагает развернуть свой локальный сервер Bot API. Круто? Да! Это позволило мне обойти ограничение на размер загружаемых файлов и значительно улучшить производительность бота.

Я использовал репозиторий от телеграм telegram-bot-api для развертывания локального сервера Bot API.

Проблемы со сборкой
Сборка и настройка сервера потребовали значительных усилий. Особенно сложно было разобраться с библиотекой telebot, так как во всей документации явно не указано, как импортировать нужные API helpers для интеграции в асинхронном подходе. Плюс, не понятно, как сходу обеспечить доступность файлов на уровне бот + локальный API сервер. К счастью, Артем помог мне с этим, что значительно сократило время на поиск решения. Оказалось, что для асинхронного подхода нужно использовать:

from telebot import asyncio_helper

После нескольких попыток и изучения документации, мы с Артемом нашли, как же все-таки нужно импортировать системные указатели и удалось успешно развернуть сервер + бота.

Успех
После развертывания локального сервера Bot API я смог:
- Загружать и обрабатывать файлы размером до 2000 МБ.
- Значительно улучшить производительность бота за счет уменьшения задержек при передаче данных.
- Увеличить количество одновременных подключений вебхуков до 100000.

Тесты
Я провел серию тестов, чтобы убедиться в работоспособности решения:
- Загружал аудио и видео различных размеров, включая файлы более 20 МБ.
- Проверял скорость обработки и передачи данных.

2 часовое аудио из записи zoom обработалось за 15 минут + я получил отличное саммари через gpt-4o-mini!

В целом я остался доволен результатом!

Как это работает?
На схеме показано, как взаимодействуют различные компоненты системы:

1. Telegram клиент (телефон пользователя) отправляет запросы на сервер Telegram через MTProto.
2. Telegram серверы обрабатывают запросы и передают их на API Telegram.
3. API Telegram взаимодействует с локальным сервером Bot API через MTProto.
4. Локальный сервер Bot API (tdlib) обрабатывает запросы и передает их на машины, где хостятся боты, через HTTP.

Вывод
Для меня развертывание локального сервера Bot API оказалось эффективным для работы с большими файлами в ботах. Это позволило обойти ограничения на размер файлов И все эксперименты скоро я начну выкладывать в открытый репозиторий!

751 viewsedited 20:34

Neural Deep

Провел тесты новой LLaMA на нашем железе, а именно на сервере с 4090 в одиночном и х2 виде.

Сейчас выложу, что в итоге я получил на 24GB VRAM на одной 4090:

Имеем огромный бессмысленный текст на 27k токенов (так считает токенайзер OpenAI).

Имеем нашу RAG платформу. Включен классический поиск, в настройках контекста стоит промпт на 200 токенов + отдача топ 3 чанков (гибридный поиск отключен). История отключена.

Далее кидаем это все в наш чат и получаем, что модель это "прожевала". Получаем утилизацию на 23GB, сверху от загрузки есть небольшой запас, но я по напутсвию из документов по vllm указал "--max-model-len", "18700".

Понимаю, что токенайзеры LLaMA и OpenAI считают по-разному, но если ориентироваться на их подсчеты, то теперь в наш RAG со всеми настройками помещается примерно 67+ тысяч символов, что составляет примерно 30 страниц документов.

Я знал, что не стоит упираться в обучение и поиск кастомных тюнов для увеличения контекста.

Далее сегодня проведу тесты на двух 4090 и расскажу, сколько контекста туда помещается, так как LLaMA 3.1 теперь поддерживает 128k контекста!

P.S пытался найти готовые калькуляторы но лучше уж проверить на практики! И на своем железе

914 views05:12

Neural Deep

Forwarded from эйай ньюз

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

Llama 3.1 405B, квантизированная до 4 бит, запущенная на двух макбуках (128 гиг оперативки у каждого). Возможно это с помощью exo - тулы, позволяющей запускать модельку распределённо на нескольких девайсов. Поддерживаются практически любые GPU, телефоны, планшеты, макбуки и почти всё о чём можно подумать.

Запустить ламу на домашнем кластере

@ai_newz

542 views06:24

Neural Deep

Update 128к Контекста при правильной настройке запустились на двух 4090
Скорости получились бешеные на чтение отдельного куска 7к токенов в секунду

Ну что теперь общаться с книгами можно так сказать на своем домашнем компе (ну да у меня сервак дома с х2 4090)

Не несет бред
В целом неплохо пересказала мне книгу Артемис Фаул в коментах закину краткое описание

Читало оно суммарно книгу около 12 секунд
Генерировало ответ за 3

Ну что Llama3.1 снова меняет игру!

740 viewsedited 13:39

Neural Deep

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

А на этом видео показан инференс новой Ламы 3.1 на чипах компании Groq. Вот именно так должно выглядеть взаимодействие с ИИ-ассиьентами: мгновенный, точный, продуманный ответ и решение задачи.

704 views11:56

Neural Deep

Всем привет! "Третий день моих отношений с LLama-3.1"

Я протестировал несколько комбинаций моделей и конфигураций. Начну с того, что до модели 405B мне пока не дотянуться из-за необходимости использования DeepSpeed, который представляет собой мульти-кластер-инференс. Пока что непонятно, как он запускается, поэтому требуется изучение документации. Миша (мой очень хороший друг и учитель по DS), который уже имел опыт с этим, поделился некоторыми деталями, так что буду продолжать изучение.

Перейдем к модели 70B. FP16 отлично запускается на 4-х H100 (1.5 миллиона в месяц аренды, ага =) ), полностью влезает, работает стабильно на 128K контекста( "--max-num-seqs", "16"). Однако FP8 не влезает на 6 GPU модели 4090, вероятно, из-за требований к памяти, которая должна быть кратной двум, например, 2, 4, 8 (моя гипотеза, хотя ошибка вообще говорит о другом: "The number of CUDA devices has changed since the first call to torch.cuda.device_count()"). Но я только изучаю этот вопрос, как найду что-то, возможно, расскажу.

В данный момент у нас есть конфигурация с 8B на 2 GPU 4090 с 128K контекста в нашем распоряжении и параметром "--max-num-seqs", "16" (в теории держит одновременно 16 потоков), для проектов B2B и тестов под B2C. Это мы зафиксировали и сохранили конфиги, можно масштабировать за Nginx + тупенький Round-robin.

Также мы можем запустить 70B в квантованном виде INT4 на 4 GPU 4090. Я уже провел тестирование, и модель работала на 128K контекста, однако у меня возникли вопросы к точности из-за значительного сокращения данных при переходе с FP16 на INT4. А еще видел пару бенчей, где место у INT4 на 10-20 пунктов ниже.

Что касается FP8, мы можем арендовать необходимое оборудование за примерно 300 тысяч рублей в месяц (одна H100) + у нас будет 2 сервера в on-premise "через месяц примерно", но при этом контекст будет ограничен (пока мне удалось выжать 3K контекста, хотя судя по табличке должно влезать 16K).

В заключение, хочу отметить, что при выборе между 8B/FP16 и 70B/FP8, предпочтение лучше отдать 70B, но при условии, что она будет работать на 128K контекста. Буду копать, как такое поднять на минимальном железе. Важно учитывать, что характеристики, указывающие на необходимый объем памяти для запуска модели, часто умалчивают о контексте и говорят типо "Вы можете запустить вот на такой видеокарте модель". Поэтому выложу официальные расчеты.

Относительно картинок и сколько памяти нужно:

Какие я использовал сервера и где Immers:

1) Для запуска 70B FP16 128K контекста.
2) Для запуска 8B FP16 128K контекста.
3) И сейчас пытаюсь уместить сюда 70B FP8 на 16K контекста (сейчас влезает 3K контекста, но возникает ошибка:

 ValueError: The model's max seq len (8000) is larger than the maximum number of tokens that can be stored in KV cache (3344). Try increasing gpu_memory_utilization or decreasing max_model_len when initializing the engine

).

Утилизация при этом:
GPU RAM 69GB из 80 доступных.

---

Текстом таблички:

1. Таблица с требованиями к памяти для различных конфигураций моделей:

- 8B: FP16 - 16 GB, FP8 - 8 GB, INT4 - 4 GB
- 70B: FP16 - 140 GB, FP8 - 70 GB, INT4 - 35 GB
- 405B: FP16 - 810 GB, FP8 - 405 GB, INT4 - 203 GB

2. Таблица с требованиями к памяти для KV Cache в зависимости от количества токенов:

- 8B: 1K токенов - 0.125 GB, 16K токенов - 1.95 GB, 128K токенов - 15.62 GB
- 70B: 1K токенов - 0.313 GB, 16K токенов - 4.88 GB, 128K токенов - 39.06 GB
- 405B: 1K токенов - 0.984 GB, 16K токенов - 15.38 GB, 128K токенов - 123.05 GB

881 viewsValerii Kovalskii, 07:04

Neural Deep

887 viewsValerii Kovalskii, 09:03

Neural Deep

Привет всем!

Хочу поделиться своими последними успехами в работе с LLama-3.1-70b в тему предыдущего поста

Удалось запустить LLama-3.1-70B в динамической квантизации FP8 на 16K контекста, и самое главное, это получилось сделать на четырёх картах 4090. Это круто, учитывая все заморочки с памятью и настройками и выделением места под кэш.

Но не всё было так гладко с самого начала. Когда я только начинал запускать модель, возникли проблемы с p2p конфигом, который создавался криво. Плюс, Ray бекенд для выполнения модели на нескольких карточках тоже не сразу заработал как надо. Я долго не мог понять, почему при 96 GB VRAM у меня не влезало больше 6K контекста. Это было реально грустно и не понятно.

После трёх или четырёх дней тестов и экспериментов я наконец-то нашёл оптимальный конфиг для запуска модели. Это было непросто, но результат того стоил.

Проведя кучу тестов по нашим RAG доменам, я понял, что текущий тест выбивает 100% точность, что делает его невалидным. Придётся придумать новый тест для более точной оценки.

Что касается возможностей модели, вот что мы проверили:

1. Обобщение текстов: Модель отлично справляется, точно следуя контексту.
2. Разметка текста: Тесты по разметке и NER (Named Entity Recognition) показали улучшение точности на 10-25%.
3. Работа в режиме агента с tool_use: Модель показала высокую эффективность, особенно при запоминании seed и 0 температуре, ошибка на тесте вызове тулзов составила 0 на 100 примерах запросов.

Также оценили работу модели re-ranking. В 9 из 10 случаев модель давала адекватную оценку релевантности чанков до и после реранжирования в RAG подходе.

Производительность модели оказалась следующей:

- Чтение: Средняя скорость обработки prompt — 1418.7 токенов в секунду, средняя скорость генерации — 0.5 токенов в секунду. Использование GPU KV cache — 34.4%

- Генерация: Средняя скорость обработки prompt — 0.0 токенов в секунду, средняя скорость генерации — 36.0 токенов в секунду. Использование GPU KV cache — 35.1%

Эти данные показывают, что нам ещё нужно искать подходы для ускорения генерации, чтобы добиться более высокой производительности.

И вот самое приятное: теперь сервер стоит не 1,5 миллиона рублей в месяц, а всего 240 тысяч рублей! Карл, это в 6 раз дешевле! Это огромная экономия, которая делает использование таких мощных моделей гораздо более доступным.

В общем, LLama-3.1-70B в динамической квантизации FP8 на 16K контекста на четырёх картах 4090 показала себя с лучшей стороны. Будем продолжать тестирование и оптимизацию, чтобы добиться ещё лучших результатов.

Прикладываю картинки:

1-2. Запуск на 4 4090 и нагрузка на сервер и его конфиги.
3. Тесты модели при проверке реранжирования.

1.3K viewsValerii Kovalskii, 07:45

Neural Deep

Привет всем!

Мы подняли в предыдущих постах LLama-3.1 на своем железе. Теперь я решил вернуться к своим старым проектам и воскресить их.

И это re-promting на базе Stable Diffusion. Замутили крутой кейс и пайп на ComfyUI, дописав AI до асинхронного неблокирующего состояния.
Провели тесты, и знаете, я остался доволен результатом.
Это точно то, что я бы использовал в генерации картинок для постов и презентаций.
Кстати пайп по обучению LLM в моменте уметь генерить картинки собрал наш гуру по Stable Diffusion @martianov

Так же вот ссылочка на тестового бота (успейте пока я его не сделал платным)

Ссылка на бота - попробуйте сейчас бесплатно!

И еще мои результаты в комментах

Иногда может глючить или не работать) Это же демо)

1.2K viewsValerii Kovalskii, edited 15:41

Neural Deep

Канал подрос хоть я и редко постил снова открыл коменты! Нас 3к!

И еще поклянчу бусты для крутых реакций!

Ставь ЕНОТА если ты робот!

1.2K viewsValerii Kovalskii, edited 16:28

Neural Deep

Мощные брейнштормы по продуктам

Генерируем идеи
Создаем планы
Задаем вопросы

Не знал, что такие вещи меня так драйвят

#r_m_r #NDT #AI #GenAI

1.1K viewsValerii Kovalskii, 10:44

Neural Deep

FLUX.1 захватывает арену Text to Image (да, такая существует)

Даже открытая и упрощённая версия FLUX.1-schnell, которую можно использовать по лицензии Apache 2.0, уступает по качеству только Midjourney v6.

Арена

1.1K viewsValerii Kovalskii, 05:55

2025/07/07 05:30:50
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>