NEURALDEEP Telegram 1241
Как построить собственную AI-поисковую систему: опыт российского рынка 2024

Привет, я еще и технический энтузиаст, который обожает разбираться в железе. Сегодня расскажу историю о том, как создать эффективную корпоративную поисковую систему на базе RAG без космических бюджетов.

От простого к сложному

Представьте классическую задачу ML - кредитный скоринг в банке. Для его работы достаточно сервера с парой GPU NVIDIA L4 общей стоимостью около 2-3 млн рублей. Такой сервер может обрабатывать нескольких 10 тысяч заявок в день.

Теперь посмотрим на современные RAG-поисковики с LLM. Для запуска требуется минимум 4-8 карт A100 или H100, а это уже 20-40 млн рублей только за железо. И это без учета остальной инфраструктуры.

Три пути внедрения поисковых систем на базе ИИ в 2024 году:

1. Облачные решения (OpenAI/Anthropic):
- Простота внедрения
- НО: Отсутствие контроля над данными
- НО: Невозможность отследить, что сотрудники отправляют в поисковые запросы
- НО: Риски утечки конфиденциальной информации через промпты

2. API-интеграция:
- Больше контроля над процессами
- Возможность логирования запросов
- НО: Все еще есть риски утечки через промпты
- НО: Зависимость от внешних провайдеров

3. Собственное RAG-решение:
- Полный контроль над данными и поисковыми запросами
- Возможность тонкой настройки под специфику компании
- НО: Стандартные серверы для обработки даже 5 параллельных запросов стоят выше тендерного лимита
- НО: Сложность начальной настройки

Почему это критично для российского рынка?

В текущих условиях компании сталкиваются с тремя ключевыми проблемами:
- Ограничения на поставку серверного оборудования
- Высокая стоимость классических решений
- Необходимость хранить данные внутри периметра компании

Наш путь оптимизации RAG-системы

1. Техническая оптимизация:
- Разработали специализированные методы запуска LLM на китайских MTT картах
- Создали ETL-пайплайны для бесшовной интеграции корпоративных баз знаний с векторными БД:
* Автоматическая синхронизация с популярными CRM/ERP системами
* Умная обработка структурированных и неструктурированных данных
* Поддержка инкрементальных обновлений
- Оптимизировали векторный поиск для работы с гибридными данными
- Внедрили эффективную систему кэширования

2. Обучение моделей:
- Провели fine-tuning open-source моделей под специфику поисковых задач
- Оптимизировали параметры для быстрого поиска
- Сфокусировались на моделях до 10B параметров, идеальных для RAG

3. Инфраструктурные решения:
- Внедрили серверные карты MTT на базе MUSA технологий
- Обеспечили стабильные поставки через китайских партнеров
- Достигли производительности уровня NVIDIA L4 по цене в 2-3 раза ниже

Реальные результаты

При классическом подходе:
Общая стоимость = Софт (N) + Сервер (S) + Внедрение (W)
Окупаемость = Экономия (C) / Время внедрения (T)

С нашими оптимизациями:
- Стоимость серверной части снижается в 2-3 раза по сравнению с аналогичными решениями на L4
- ETL-процессы позволяют начать работу с существующими базами знаний за считанные дни вместо месяцев
- Гибридный подход к хранению и поиску обеспечивает точность на уровне 80%+

Подтверждение рынком

На начало 2025 года:
- Портфель из 4 крупных компаний в очереди на поставку программно-аппаратного комплекса
- Успешные пилоты в разных отраслях
- Подтвержденная экономия на внедрении от 60%


Главный инсайт:
- Китайские GPU карты это что-то новое и до конца не изученное,
- Классические базы знаний компаний уже содержат 80% необходимой информации. Наша задача - сделать её доступной через современные векторные поисковые системы. Благодаря оптимизированным ETL-процессам мы превращаем статичные базы знаний в динамические поисковые системы.

Про что рассказать дальше?
- Как работает наш ETL-пайплайн для разных типов данных?
- Методы оптимизации векторного поиска?
- Особенности интеграции с популярными корпоративными системами?
- Практические кейсы внедрения?
- Расчеты экономической эффективности на железе?



tgoop.com/neuraldeep/1241
Create:
Last Update:

Как построить собственную AI-поисковую систему: опыт российского рынка 2024

Привет, я еще и технический энтузиаст, который обожает разбираться в железе. Сегодня расскажу историю о том, как создать эффективную корпоративную поисковую систему на базе RAG без космических бюджетов.

От простого к сложному

Представьте классическую задачу ML - кредитный скоринг в банке. Для его работы достаточно сервера с парой GPU NVIDIA L4 общей стоимостью около 2-3 млн рублей. Такой сервер может обрабатывать нескольких 10 тысяч заявок в день.

Теперь посмотрим на современные RAG-поисковики с LLM. Для запуска требуется минимум 4-8 карт A100 или H100, а это уже 20-40 млн рублей только за железо. И это без учета остальной инфраструктуры.

Три пути внедрения поисковых систем на базе ИИ в 2024 году:

1. Облачные решения (OpenAI/Anthropic):
- Простота внедрения
- НО: Отсутствие контроля над данными
- НО: Невозможность отследить, что сотрудники отправляют в поисковые запросы
- НО: Риски утечки конфиденциальной информации через промпты

2. API-интеграция:
- Больше контроля над процессами
- Возможность логирования запросов
- НО: Все еще есть риски утечки через промпты
- НО: Зависимость от внешних провайдеров

3. Собственное RAG-решение:
- Полный контроль над данными и поисковыми запросами
- Возможность тонкой настройки под специфику компании
- НО: Стандартные серверы для обработки даже 5 параллельных запросов стоят выше тендерного лимита
- НО: Сложность начальной настройки

Почему это критично для российского рынка?

В текущих условиях компании сталкиваются с тремя ключевыми проблемами:
- Ограничения на поставку серверного оборудования
- Высокая стоимость классических решений
- Необходимость хранить данные внутри периметра компании

Наш путь оптимизации RAG-системы

1. Техническая оптимизация:
- Разработали специализированные методы запуска LLM на китайских MTT картах
- Создали ETL-пайплайны для бесшовной интеграции корпоративных баз знаний с векторными БД:
* Автоматическая синхронизация с популярными CRM/ERP системами
* Умная обработка структурированных и неструктурированных данных
* Поддержка инкрементальных обновлений
- Оптимизировали векторный поиск для работы с гибридными данными
- Внедрили эффективную систему кэширования

2. Обучение моделей:
- Провели fine-tuning open-source моделей под специфику поисковых задач
- Оптимизировали параметры для быстрого поиска
- Сфокусировались на моделях до 10B параметров, идеальных для RAG

3. Инфраструктурные решения:
- Внедрили серверные карты MTT на базе MUSA технологий
- Обеспечили стабильные поставки через китайских партнеров
- Достигли производительности уровня NVIDIA L4 по цене в 2-3 раза ниже

Реальные результаты

При классическом подходе:

Общая стоимость = Софт (N) + Сервер (S) + Внедрение (W)
Окупаемость = Экономия (C) / Время внедрения (T)

С нашими оптимизациями:
- Стоимость серверной части снижается в 2-3 раза по сравнению с аналогичными решениями на L4
- ETL-процессы позволяют начать работу с существующими базами знаний за считанные дни вместо месяцев
- Гибридный подход к хранению и поиску обеспечивает точность на уровне 80%+

Подтверждение рынком

На начало 2025 года:
- Портфель из 4 крупных компаний в очереди на поставку программно-аппаратного комплекса
- Успешные пилоты в разных отраслях
- Подтвержденная экономия на внедрении от 60%


Главный инсайт:
- Китайские GPU карты это что-то новое и до конца не изученное,
- Классические базы знаний компаний уже содержат 80% необходимой информации. Наша задача - сделать её доступной через современные векторные поисковые системы. Благодаря оптимизированным ETL-процессам мы превращаем статичные базы знаний в динамические поисковые системы.

Про что рассказать дальше?
- Как работает наш ETL-пайплайн для разных типов данных?
- Методы оптимизации векторного поиска?
- Особенности интеграции с популярными корпоративными системами?
- Практические кейсы внедрения?
- Расчеты экономической эффективности на железе?

BY Neural Deep


Share with your friend now:
tgoop.com/neuraldeep/1241

View MORE
Open in Telegram


Telegram News

Date: |

The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. 1What is Telegram Channels? Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. 2How to set up a Telegram channel? (A step-by-step tutorial) In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist.
from us


Telegram Neural Deep
FROM American