Neural Deep

Ты точно оценишь! Да и много кто еще)

Теперь в @daisytranscribe_bot можно засетапить кастомный промпт для анализа своего файла

/summary_prompt

Потом жмем "Set New Prompt" и самое главное сделать replay следующего сообщения с новой инструкцией)

Я в саджесте показываю как лучше всего писать промпты для анализа но уверен у тебя есть свои =)

И вуаля ллмка сделает то что тебе нужно а не то что я зашил по дефолту)

1.7K viewsValerii Kovalskii, 21:22

Neural Deep

Наконец у нас в стартапе собралось достаточно кейсов и у лида разметки появилось время и помощники что бы начать сравнивать open-source модели под наши продуктовые задачи.

Подготовили сейчас площадку и визуализацию базовыми MMLU/ruMMLU кстати как вам сравнение Llama3.1 8b vs Qwen 2.5 7b ?

Еще и клод сразу помогает сделать красивую визуализацию =)

Бенчмарки будут про бизнесовые задачи в РФ от HR RAG до text2sql задачек! Пишите что интересно вам!

1.4K viewsValerii Kovalskii, 16:32

Neural Deep

Как построить собственную AI-поисковую систему: опыт российского рынка 2024

Привет, я еще и технический энтузиаст, который обожает разбираться в железе. Сегодня расскажу историю о том, как создать эффективную корпоративную поисковую систему на базе RAG без космических бюджетов.

От простого к сложному

Представьте классическую задачу ML - кредитный скоринг в банке. Для его работы достаточно сервера с парой GPU NVIDIA L4 общей стоимостью около 2-3 млн рублей. Такой сервер может обрабатывать нескольких 10 тысяч заявок в день.

Теперь посмотрим на современные RAG-поисковики с LLM. Для запуска требуется минимум 4-8 карт A100 или H100, а это уже 20-40 млн рублей только за железо. И это без учета остальной инфраструктуры.

Три пути внедрения поисковых систем на базе ИИ в 2024 году:

1. Облачные решения (OpenAI/Anthropic):
- Простота внедрения
- НО: Отсутствие контроля над данными
- НО: Невозможность отследить, что сотрудники отправляют в поисковые запросы
- НО: Риски утечки конфиденциальной информации через промпты

2. API-интеграция:
- Больше контроля над процессами
- Возможность логирования запросов
- НО: Все еще есть риски утечки через промпты
- НО: Зависимость от внешних провайдеров

3. Собственное RAG-решение:
- Полный контроль над данными и поисковыми запросами
- Возможность тонкой настройки под специфику компании
- НО: Стандартные серверы для обработки даже 5 параллельных запросов стоят выше тендерного лимита
- НО: Сложность начальной настройки

Почему это критично для российского рынка?

В текущих условиях компании сталкиваются с тремя ключевыми проблемами:
- Ограничения на поставку серверного оборудования
- Высокая стоимость классических решений
- Необходимость хранить данные внутри периметра компании

Наш путь оптимизации RAG-системы

1. Техническая оптимизация:
- Разработали специализированные методы запуска LLM на китайских MTT картах
- Создали ETL-пайплайны для бесшовной интеграции корпоративных баз знаний с векторными БД:
* Автоматическая синхронизация с популярными CRM/ERP системами
* Умная обработка структурированных и неструктурированных данных
* Поддержка инкрементальных обновлений
- Оптимизировали векторный поиск для работы с гибридными данными
- Внедрили эффективную систему кэширования

2. Обучение моделей:
- Провели fine-tuning open-source моделей под специфику поисковых задач
- Оптимизировали параметры для быстрого поиска
- Сфокусировались на моделях до 10B параметров, идеальных для RAG

3. Инфраструктурные решения:
- Внедрили серверные карты MTT на базе MUSA технологий
- Обеспечили стабильные поставки через китайских партнеров
- Достигли производительности уровня NVIDIA L4 по цене в 2-3 раза ниже

Реальные результаты

При классическом подходе:

Общая стоимость = Софт (N) + Сервер (S) + Внедрение (W)
Окупаемость = Экономия (C) / Время внедрения (T)

С нашими оптимизациями:
- Стоимость серверной части снижается в 2-3 раза по сравнению с аналогичными решениями на L4
- ETL-процессы позволяют начать работу с существующими базами знаний за считанные дни вместо месяцев
- Гибридный подход к хранению и поиску обеспечивает точность на уровне 80%+

Подтверждение рынком

На начало 2025 года:
- Портфель из 4 крупных компаний в очереди на поставку программно-аппаратного комплекса
- Успешные пилоты в разных отраслях
- Подтвержденная экономия на внедрении от 60%

Главный инсайт:
- Китайские GPU карты это что-то новое и до конца не изученное,
- Классические базы знаний компаний уже содержат 80% необходимой информации. Наша задача - сделать её доступной через современные векторные поисковые системы. Благодаря оптимизированным ETL-процессам мы превращаем статичные базы знаний в динамические поисковые системы.

Про что рассказать дальше?
- Как работает наш ETL-пайплайн для разных типов данных?
- Методы оптимизации векторного поиска?
- Особенности интеграции с популярными корпоративными системами?
- Практические кейсы внедрения?
- Расчеты экономической эффективности на железе?

1.5K viewsValerii Kovalskii, edited 11:55

Neural Deep

Forwarded from LakoMoor

Сбер добрался до гигабайта

1.1K viewsValerii Kovalskii, 11:53

Neural Deep

Forwarded from red_mad_robot

Наших роботов и там, и тут показывают 🦾

Сразу два спикера red_mad_robot выступили на Conversations — конференции по генеративному и разговорному AI для бизнеса и разработчиков.

🟥На main stage поделились практическим кейсом для ГК ФСК — об агентах умной базы знаний, которые упростили работу девелопера с документами и информацией. Илья Филиппов, руководитель направления AI red_mad_robot, и Семён Зуев, руководитель управлением цифровизации ФСК, заглянули под капот технологии и объяснили инновационность решения. Расскажем и здесь — дело в гибридном поисковом подходе и автотестировании чат-бота. Подробнее о решении читайте в статье.

🟥На second stage Валерий Ковальский, CEO NDT by red_mad_robot, выступил с техническим докладом о RAG — генерации с дополненной выборкой. Он рассказал, как повысить точность ответов в узких доменах и научить LLM выполнять сложные задачи, которые требуют рассуждений и глубокого анализа.

Записи выступления опубликуют на канале Conversations уже в январе, следите за обновлениями. А пока прикладываем фото с конференции.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K viewsValerii Kovalskii, 14:57

Neural Deep

В целом я был бы не против но только на небольшое время!

1.5K viewsValerii Kovalskii, 11:45

Neural Deep

Channel name was changed to «Neural Deep | NDT»

18:27

Neural Deep

Наверное еще рано чтобы подводить громкие итоги.

Но я точно могу сказать чем могу гордиться к 30 годам

У меня родился сын в 2024!!!
У меня прекрасная жена без которой я бы не достигал таких высот ❤️
Супер крутая и отзывчивая семья!

Осуществил мечту собрать команду мечты, они самые крутые ребята!

Поборол страх выступлений, в этом году более 8 публичных выступлений, участий в подкастах и съёмках.

Ну и на последок все, что я делаю - это точно помогает и упрощает жизнь людям, моими идеями и уникальными сервисами пользуется более 100.000 человек в месяц!

Оставайтесь на связи, вы самая крутая аудитория =)

В 2025 я продолжу свой путь!

1.3K viewsValerii Kovalskii, 18:57

Neural Deep

Всем привет!
Начнем этот год с бенчмарков on-premise VL и Cloud моделей и их производительности в анализе неструктурированных документов и извлечении данных из них через подход Structured output.

У нас сегодня открытые данные (таможенные декларации и неструктурированные документы): паспорта качества, СЭС-сертификаты, сертификаты пожарной безопасности. Все эти документы объединяет то, что они общедоступные и неструктурированные.

Соревнуются четыре модели: Qwen/Qwen2-VL-7B-Instruct и Qwen/Qwen2-VL-72B-Instruct (вторая запущена в динамической квантизации на 8FP.

А так же claude-3.5-sonnet и gpt-4o

Куда смотрим для понимания точности на метрику DocVQAtest

Qwen2-VL-7B: 94.5% (в сравнении с gpt-4o-mini)

Qwen2-VL-72B: 96.5% (в сравнении с моделями ниже)
GPT-4o: 92.8%
Claude-3.5 Sonnet: 95.2%

Итак, на вход у нас задача извлекать 5 типов данных:
1) Производитель
2) Номер документа
3) Даты
4) Организация, которая выдала
5) Описание

Примерный промпт, который мне понравился:

Analyze the document image and extract the following fields with special attention to mixed character sets:
1. MANUFACTURER (ПРОИЗВОДИТЕЛЬ):
   - Extract complete legal name
   - Include organization type (ООО, АО etc.)
   - Preserve original formatting
2. DOCUMENT NUMBER (НОМЕР ДОКУМЕНТА):
   - Extract complete number maintaining original format
   - Pay special attention to:
     * Cyrillic characters (А-Я, а-я)
     * Latin characters (A-Z, a-z)
     * Numbers (0-9)
     * Special characters (-, .)
   - Preserve exact case of letters
3. DATES (ДАТЫ):
   - Issue date (дата регистрации)
   - Expiry date (действительна по)
   - Format: DD.MM.YYYY
   - Validate date format
4. ISSUING ORGANIZATION (ОРГАНИЗАЦИЯ):
   - Extract complete legal name
   - Include location if specified
   - Maintain original spelling
5. DESCRIPTION (ОПИСАНИЕ):
   - Extract document type and purpose
   - Include scope of application
   - Preserve key regulatory references

Structured Output схема (специально максимально скрыл данные в некоторых полях, считаю это уже интеллектуальной собственностью):

{
  "type": "object",
  "properties": {
    "manufacturer": {
      "type": "string",
      "description": "..."
    },
    "document_number": {
      "type": "string",
      "description": "..."
    },
    "issue_date": {
      "type": "string",
      "description": "..."
    },
    "expiry_date": {
      "type": "string",
      "description": "..."
    },
    "issuing_organization": {
      "type": "string",
      "description": "..."
    },
    "description": {
      "type": "string",
      "description": "..."
    }
  },
  "required": [
    "manufacturer",
    "document_number",
    "issue_date",
    "expiry_date",
    "issuing_organization",
    "description"
  ]
}

Так как мы запускаемся на VLLM, то у нас на сегодня есть три бэкенда для Structured Output. Но я использую xgrammar.

Конфиг железа:
1) 7b модель запущена на 4090

gpu_executor.py:80] Maximum concurrency for 20000 tokens per request: 3.82x

2) 72b модель в динамической FP8 влезает в одну H100, так что тут не густо по потокам, но хватает для анализа

gpu_executor.py:80] Maximum concurrency for 6000 tokens per request: 2.38x

А что по времени с on-premise

4 сек у 7b и 10 сек у 72b на одну страничку!

В картинку вынес сравнительную таблицу по стоимости(учитывая аренду сервера на месяц), скорости своим комментариям, и емкости взял за пример, что в сутки надо анализировать 20к документов.

Какие выводы можем сделать?
Если у вас огромные потоки данных для анализа в сутки от 10-20к в день, и вам очень важна секьюрность, то on-premise решения уже догоняют Cloud решения по многим характеристикам. Да начинаем с cloud (так как надо SO то пока что только openai)

Главное - грамотно подойти к настройке сервиса и железу (что мы и делаем для наших клиентов), именно разрабатываем выгодную стратегию использования LLM решений в контуре компаний клиентов!

1.7K viewsValerii Kovalskii, edited 14:28

Neural Deep

Forwarded from Старший Авгур

У Anthropic пару недель назад вышел пост про агентов: https://www.anthropic.com/research/building-effective-agents

Он прекрасен тем, что определяет, что является агентом, а что не является. С точки зрения авторов поста, агент = система, в которой языковые модели динамически управляют собственными вызовами и инструментами, контролируя выполнение какой-то задачи.

Авторы утверждают, что для большинства случаев агенты не нужны: чем проще решение, тем лучше. С чем я полностью согласен 👏

Основное содержание поста — примитивы и паттерны оркестрирования языковых моделей без агентов. Основной примитив: улучшенная языковая модель, которая имеет доступ к инструментам, поиску и памяти. Этот примитив может быть реализован по-разному, например через конечное число последовательных вызовов языковой модели.

🔹Паттерн 1: цепочка промптов
Если задача разбивается на несколько последовательных подзадач, их можно решать отдельными вызовами языковой модели. Например, если вы хотите сделать систему, пишущую книги, вы сначала делаете вызов для генерации названия книги, потом отдельные вызовы для краткого описания, содержания, выжимок глав и непосредственно самих глав.

🔹Паттерн 2: маршрутизация
Если ваше приложение разбивается на несколько возможных параллельных путей, то стоит сделать классификатор, который будет определять нужный путь, и специализированные промпты под каждый из путей. Например, если вы делаете чатбот с несколькими независимыми функциями (рекомендация фильмов, ответы на вопросы по фильмам, чат на общие темы), то стоит использовать этот паттерн. В древних чатботах часто был детектор интентов, который делал ровно это 👴

🔹Паттерн 3: параллелизация
Если задача разбивается на несколько параллельных подзадач, то стоит их и вызывать параллельно. Например, если вам нужно извлечь огромный JSON из текста или переписки, возможно вам стоит извлекать его по кусочкам. Отличие от маршрутизации в том, что в ней нам нужна была только одна ветка, а тут нам нужны результаты всех вызовов.

🔹Паттерн 4: ведущий-ведомый

😭

То же самое, что и параллелизация, только с динамическим количеством и содержанием подзадач. Например, так можно делать агрегацию результатов поиска.

🔹Паттерн 5: цикл оценки
Если есть чёткие критерии оценки качества выполнения задачи, то можно одной языковой моделью решать задачу, а другой — оценивать качество решения и давать обратную связь. И делать это в цикле. Это может работать много где, например в переводе текстов.

Ну и наконец последний паттерн — агенты, которые совершают действия в определенной среде, получают от среды обратную связь, и снова совершают действия.

Мне в разных местах в разное время пришлось использовать первые 3 паттерна. При этом тогда я не формулировал их как отдельные паттерны. Это не какие-то абстрактные штуки, это кристаллизация того, как удобно и просто строить системы (как и любые другие паттерны проектирования).

Please open Telegram to view this post

VIEW IN TELEGRAM

814 viewsValerii Kovalskii, 09:08

Neural Deep

Продолжаю свои тесты и вот удалось развернуть Qwen2-VL-72B-Instruct-FP8-dynamic на 4х4090 (на immers за 260к деревянных в месяц) с 16к токенами контекста и с не плохой скоростью

Cейчас взял этот бенчмарк cmarkea/doc-vqa и упаковал тест в streamlit что бы визуально видеть как отрабатывает модель

1) Проблема я не понял как побороть требование следовать точному ответу из заготовленных правильных (возможно не так готовлю)
2) Чукча решил собрать на базе Structured Output модератора на базе Qwen 2.5 7b который будет решать True или False то в итоге что бы не писать кучу обработок

Как соберу все в едино выдам результаты в комментарии

1.1K viewsValerii Kovalskii, 12:25

Neural Deep

Поменял датасет на вот этот

Добавил проверку ответа еще в один шаг LLM модератором

1) Скрин результаты
2) Скрин процесс следил за ним сразу в 3 терминала =)

Прогнал на обеих моделях по 250 вопросов из доступных 10к

Поставлю на ночь все тогда!

Какие еще VL модельки проверить на DocVQA?

1.1K viewsValerii Kovalskii, edited 18:09

Neural Deep

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

Ну что разбиваем копилку?

Вышла долгожданная 5090 в два раза мощнее прошлой GeForce RTX 4090, и в два раза компактнее.

Nvidia представила GeForce RTX 5090, а также GeForce RTX 5080, GeForce RTX 5070 Ti и GeForce RTX 5070

GeForce RTX 5090 оказалась сильно дешевле, чем ожидалось $1.999 я рассчитывал на 2.500+

GeForce RTX 5090. 32 ГБ памяти GDDR7.
Частота памяти составила 30 ГГц. Видеокарта построена на GPU GB202-300-A1 c 21 760 ядрами CUDA.
TDP — 575 Вт.
Ускоритель поддерживает PCIe Gen 5.0 и DisplayPort 2.1b UHBR20 (8K 165 ГЦ)

1.0K viewsValerii Kovalskii, edited 08:51

2025/07/01 22:57:54
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>