Когда open-source логирование подставляет, а невнимательность с моделями бьет по метрикам 📊
Все вы помните как я переехал на LiteLLM
Вчера у нас был тот самый день, когда все идет не так, как планировалось
OpenAI API частично лежало, задержки до 16 секунд, пользователи в поддержку валом — классика жанра для любого сервиса с высоким MAU
Проблема №1: Слепая зона в мониторинге
Когда пользователи начали жаловаться на тормоза, мы полезли проверять наш LiteLLM прокси. И тут выяснилось, что без лицензии у нас доступны только базовые метрики в
Мой самописный дашборд показывал, что с прокси все ОК — никаких аномалий
Но задержки-то были! В логах они светились, а в интерфейсе нет
Результат: 2 часа потрачено на копание в прокси, вместо того чтобы сразу проверить статус провайдеров
Ха-ха классический случай "лечим симптомы, а не причину"
Проблема №2: Миграция фильтров без должного тестирования
Наша эволюция фильтров NSFW для FLUX генерации:
- Начали с Llama 3.1 + кастомный промпт для нашего FLUX (низкий RPS легко справлялся локальный кластер)
- Переехали на Qwen2.5 (промпт остался тот же)
- Из-за нагрузки мигрировали на gpt-4o-mini
И вот тут началось веселье!
Промпт, который работал с локальными моделями, на gpt-4o-mini показал себя ужасно да как так то? =)
- 37% False Positive срабатываний
- Пользователи, которые писали "девушка" в запросе, не получали генерацию
После анализа данных из единого прокси (спасибо ему за централизованные логи!) команда R&D быстро поняла масштаб проблемы и сделали первое
1) Выгрузил все срабатывания от момента замены модели
2) Глазами просмотрели все FALSE
3) Поняли что нужно менять
Что сделали:
- Переработали промпт под gpt-4o-mini
- Ввели уровни категоризации вместо бинарной фильтрации
- Добавили структурированный вывод (SO)
Результаты после фикса(все просмотрели глазами)
- Снижение общей фильтрации до 17%
- FP уменьшились до 24%
- Пользователи снова получают нормальные генерации
Проблема №3: Мистический расход токенов на $350
Тут была самая загадочная история! Один из API ключей потребил весь свой бюджет на токены за какие-то 5 запросов. Трекнулось аж целых 350 долларов сразу алерты полетели 🚨
Что я сделал? Натравил на логи агента в Cursor, дал ему доступ через SSH к серверу где лежит проект и указал как писать запросы в БД и где лежат логи и сказал: "Найди что тут не так!"
И знаете что? LLM оказался круче любого DevOps инженера! За несколько минут он нашел, что это web search функция, которая за 1000 запросов стоит $35, а не обычная генерация
Дальше мы с LLM стали искать, где же система неправильно трекает этот параметр. 15 взаимодействий с find и grep — и вуаля! Нашли проблемный участок кода.
Баг найден будет отправлен в репозиторий LiteLLM
Честно, почти везде LLM помогли найти проблему быстрее, чем я бы сам
- Анализ латенси — LLM разобрал логи и указал на узкие места
- Поиск багов — структурированный поиск по кодовой базе
- Анализ трафика — выявление аномальных паттернов в запросах
Мой новый подход
1. Логи → LLM для первичного анализа
2. LLM находит зацепки → я иду копать глубже
3. LLM помогает с grep/awk/sed магией
4. Профит!
По мониторингу
- Open-source решения могут подставить в критический момент
- Нужен собственный экспортер метрик для Grafana
- Логи != метрики в дашборде (очевидно, но забываем)
По фильтрации
- Каждая модель требует отдельной настройки промптов
- A/B тестирование фильтров — не роскошь, а необходимость
- Миграция моделей без тестов = выстрел себе в ногу
По дебагу
- LLM + логи = мощный дуэт для поиска проблем
- Структурированный анализ через AI экономит часы времени
- Всегда держите LLM "под рукой" при инцидентах:
Да, скажете "это же база!" — но опыт есть опыт. Иногда нужно наступить на грабли, чтобы понять, где они лежат 😅
И главное LLM действительно может быть вашим DevOps коллегой. Не заменит, но сильно поможет! Главное не дать выполнить критичные команды (читай каждую команду что генерит LLM)
P.S. Единое прокси снова доказало свою ценность — без централизованного логирования мы бы копались в проблеме намного дольше!
Все вы помните как я переехал на LiteLLM
Вчера у нас был тот самый день, когда все идет не так, как планировалось
OpenAI API частично лежало, задержки до 16 секунд, пользователи в поддержку валом — классика жанра для любого сервиса с высоким MAU
Проблема №1: Слепая зона в мониторинге
Когда пользователи начали жаловаться на тормоза, мы полезли проверять наш LiteLLM прокси. И тут выяснилось, что без лицензии у нас доступны только базовые метрики в
/metrics
Мой самописный дашборд показывал, что с прокси все ОК — никаких аномалий
Но задержки-то были! В логах они светились, а в интерфейсе нет
Результат: 2 часа потрачено на копание в прокси, вместо того чтобы сразу проверить статус провайдеров
Ха-ха классический случай "лечим симптомы, а не причину"
Проблема №2: Миграция фильтров без должного тестирования
Наша эволюция фильтров NSFW для FLUX генерации:
- Начали с Llama 3.1 + кастомный промпт для нашего FLUX (низкий RPS легко справлялся локальный кластер)
- Переехали на Qwen2.5 (промпт остался тот же)
- Из-за нагрузки мигрировали на gpt-4o-mini
И вот тут началось веселье!
Промпт, который работал с локальными моделями, на gpt-4o-mini показал себя ужасно да как так то? =)
- 37% False Positive срабатываний
- Пользователи, которые писали "девушка" в запросе, не получали генерацию
После анализа данных из единого прокси (спасибо ему за централизованные логи!) команда R&D быстро поняла масштаб проблемы и сделали первое
1) Выгрузил все срабатывания от момента замены модели
2) Глазами просмотрели все FALSE
3) Поняли что нужно менять
Что сделали:
- Переработали промпт под gpt-4o-mini
- Ввели уровни категоризации вместо бинарной фильтрации
- Добавили структурированный вывод (SO)
Результаты после фикса(все просмотрели глазами)
- Снижение общей фильтрации до 17%
- FP уменьшились до 24%
- Пользователи снова получают нормальные генерации
Проблема №3: Мистический расход токенов на $350
Тут была самая загадочная история! Один из API ключей потребил весь свой бюджет на токены за какие-то 5 запросов. Трекнулось аж целых 350 долларов сразу алерты полетели 🚨
Что я сделал? Натравил на логи агента в Cursor, дал ему доступ через SSH к серверу где лежит проект и указал как писать запросы в БД и где лежат логи и сказал: "Найди что тут не так!"
И знаете что? LLM оказался круче любого DevOps инженера! За несколько минут он нашел, что это web search функция, которая за 1000 запросов стоит $35, а не обычная генерация
Дальше мы с LLM стали искать, где же система неправильно трекает этот параметр. 15 взаимодействий с find и grep — и вуаля! Нашли проблемный участок кода.
Баг найден будет отправлен в репозиторий LiteLLM
Честно, почти везде LLM помогли найти проблему быстрее, чем я бы сам
- Анализ латенси — LLM разобрал логи и указал на узкие места
- Поиск багов — структурированный поиск по кодовой базе
- Анализ трафика — выявление аномальных паттернов в запросах
Мой новый подход
1. Логи → LLM для первичного анализа
2. LLM находит зацепки → я иду копать глубже
3. LLM помогает с grep/awk/sed магией
4. Профит!
По мониторингу
- Open-source решения могут подставить в критический момент
- Нужен собственный экспортер метрик для Grafana
- Логи != метрики в дашборде (очевидно, но забываем)
По фильтрации
- Каждая модель требует отдельной настройки промптов
- A/B тестирование фильтров — не роскошь, а необходимость
- Миграция моделей без тестов = выстрел себе в ногу
По дебагу
- LLM + логи = мощный дуэт для поиска проблем
- Структурированный анализ через AI экономит часы времени
- Всегда держите LLM "под рукой" при инцидентах:
Да, скажете "это же база!" — но опыт есть опыт. Иногда нужно наступить на грабли, чтобы понять, где они лежат 😅
И главное LLM действительно может быть вашим DevOps коллегой. Не заменит, но сильно поможет! Главное не дать выполнить критичные команды (читай каждую команду что генерит LLM)
P.S. Единое прокси снова доказало свою ценность — без централизованного логирования мы бы копались в проблеме намного дольше!
Как GenAI работает в реальных решениях? Расскажем на Conversations
В конце июня встречаемся на одной из главных летних AI-конференций — Conversations 2025. Обсудим, как GenAI становится частью рабочих систем, что помогает не просто тестировать технологии, а внедрять их осознанно, и куда движется индустрия.
От red_mad_robot — два доклада:
Я расскажу, как мы перешли от Naive RAG к workflow-агентским системам, усложнили архитектуру и применяем подход в решении многослойных бизнес-задач.
Илья Филиппов, CEO red_mad_robot AI, вместе с руководителем сервиса книги билайн Натальей Каменских покажет, как AI-поиск работает в продукте и что это даёт пользователю и бизнесу. Кстати Илья завел очень крутой канал где рассказывает про крупный b2b сегмент GenAI в РФ
Конференция пройдёт 26–27 июня в Санкт-Петербурге. Подробности и билеты на сайте,а от меня промокод на 10% — CNVS25sKaV
В конце июня встречаемся на одной из главных летних AI-конференций — Conversations 2025. Обсудим, как GenAI становится частью рабочих систем, что помогает не просто тестировать технологии, а внедрять их осознанно, и куда движется индустрия.
От red_mad_robot — два доклада:
Я расскажу, как мы перешли от Naive RAG к workflow-агентским системам, усложнили архитектуру и применяем подход в решении многослойных бизнес-задач.
Илья Филиппов, CEO red_mad_robot AI, вместе с руководителем сервиса книги билайн Натальей Каменских покажет, как AI-поиск работает в продукте и что это даёт пользователю и бизнесу. Кстати Илья завел очень крутой канал где рассказывает про крупный b2b сегмент GenAI в РФ
Конференция пройдёт 26–27 июня в Санкт-Петербурге. Подробности и билеты на сайте,
Neural Deep
Когда open-source логирование подставляет, а невнимательность с моделями бьет по метрикам 📊 Все вы помните как я переехал на LiteLLM Вчера у нас был тот самый день, когда все идет не так, как планировалось OpenAI API частично лежало, задержки до 16 секунд…
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from R77 AI | Кейсы в ИИ (от выпускников МФТИ)
RAG — можно ли запилить коробку?
Вернулись к тех. вебинарам после более бизнесово-менеджерских)
Позвали наших друзей Елизавету Ермакову, Диму Черноуса из МТС AI и Валерия Ковальского из Neural deep tech, чтобы обсудить, что сейчас больше и больше приходит запросов от супер разных бизнесов на реализацию разных ассистентов с RAG под капотом. Не все могут позволить кастом, да и многие пилят свою "коробку". Интересно – можно ли вообще сделать коробку RAG (и если да, то в рамках каких ограничений).
А вот конкретно:
1. Единый чат-бот (ассистент по знаниям) vs. отдельные сценарии / кейсы. Почему Валера не делает чат-ботов.
2. Коробка RAG vs. Кастом. Какие ограничения технологий. Можно ли поставить коробку где retrieval будет работать.
3. Входной порог к разработке своих решений. vibe coding.
4. Поделиться байками (как многие не понимают что такое RAG, делают FTS, называя это ИИ и тд)/фейлами (типо cost выше стоимости лицензий и тд).
В среду в 16-00, ставьте нотифай в трансляции, ну и в календарик вот
Вернулись к тех. вебинарам после более бизнесово-менеджерских)
Позвали наших друзей Елизавету Ермакову, Диму Черноуса из МТС AI и Валерия Ковальского из Neural deep tech, чтобы обсудить, что сейчас больше и больше приходит запросов от супер разных бизнесов на реализацию разных ассистентов с RAG под капотом. Не все могут позволить кастом, да и многие пилят свою "коробку". Интересно – можно ли вообще сделать коробку RAG (и если да, то в рамках каких ограничений).
А вот конкретно:
1. Единый чат-бот (ассистент по знаниям) vs. отдельные сценарии / кейсы. Почему Валера не делает чат-ботов.
2. Коробка RAG vs. Кастом. Какие ограничения технологий. Можно ли поставить коробку где retrieval будет работать.
3. Входной порог к разработке своих решений. vibe coding.
4. Поделиться байками (как многие не понимают что такое RAG, делают FTS, называя это ИИ и тд)/фейлами (типо cost выше стоимости лицензий и тд).
В среду в 16-00, ставьте нотифай в трансляции, ну и в календарик вот
https://www.tgoop.com/r77_ai?livestream
Успей еще 30 минут онлайн
Залетайте на стрим про RAG и чатботов!
Елизавету Ермакову, Диму Черноуса из МТС AI и Валерия Ковальского из Neural deep tech
Успей еще 30 минут онлайн
Залетайте на стрим про RAG и чатботов!
Елизавету Ермакову, Диму Черноуса из МТС AI и Валерия Ковальского из Neural deep tech
Telegram
R77 AI | Кейсы в ИИ (от выпускников МФТИ)
Топ-10 интеграторов и разработчиков ИИ России.
Рассказываем о реальных проектах с ИИ, ML, DS, CV, LLM, RAG.
Без новостей о новом ChatGPT и ответов на вопрос «Заменят ли нейросети человека».
Наш сайт: https://r77.ai
Приемная: @savinvlad
Рассказываем о реальных проектах с ИИ, ML, DS, CV, LLM, RAG.
Без новостей о новом ChatGPT и ответов на вопрос «Заменят ли нейросети человека».
Наш сайт: https://r77.ai
Приемная: @savinvlad
Forwarded from red_mad_robot
red_mad_robot совместно с @beeline представил первую линейку AI-агентов
На ПМЭФ мы показали результат технологического партнёрства с билайном — первую линейку корпоративных AI-агентов, ориентированных на прикладные задачи бизнеса и госсектора.
Агенты закрывают пять ключевых направлений:
📍 Продажи
📍 Контакт-центр
📍 Административные процессы
📍 Разработку
📍 Маркетинг
В отличие от классических чат-ботов, AI-агенты взаимодействуют в формате диалога, понимают задачи в свободной форме, обращаются к внутренним базам данных и внешним источникам информации — и возвращают готовое решение. Это интеллектуальные ассистенты, встроенные в корпоративную инфраструктуру и адаптированные под реальные процессы.
Если вы на ПМЭФ — приходите на наш стенд, чтобы первыми протестировать сценарии вживую.
#AI_moment #роботайм
↗️ red_mad_robot
На ПМЭФ мы показали результат технологического партнёрства с билайном — первую линейку корпоративных AI-агентов, ориентированных на прикладные задачи бизнеса и госсектора.
Агенты закрывают пять ключевых направлений:
В отличие от классических чат-ботов, AI-агенты взаимодействуют в формате диалога, понимают задачи в свободной форме, обращаются к внутренним базам данных и внешним источникам информации — и возвращают готовое решение. Это интеллектуальные ассистенты, встроенные в корпоративную инфраструктуру и адаптированные под реальные процессы.
Если вы на ПМЭФ — приходите на наш стенд, чтобы первыми протестировать сценарии вживую.
#AI_moment #роботайм
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Pavel Zloi
Философских размышлений пост
С момента начала AI-хайпа прошло уже достаточно времени. За весь этот период мне так и не удалось попробовать хотя бы один действительно завершённый, полноценно работающий продукт с нейросетью под капотом.
Во всех случаях, даже если продукт выглядит многообещающим, рано или поздно обнаруживаются недостатки, то картинки кривые генерит, то текст не тот напишет, то забудет о чём речь была два сообщения назад. Наиболее показательный пример - чат-интерфейсы с нейросетями (например ChatGPT или DeepSeek, или Qwen и так далее), в которых повсеместно присутствуют кнопки лайк/дизлайк. Это означает, что от пользователя ожидается разметка и оценка качества работы системы.
AI-содержащие продукты создают занятный прецедент, они возвели идею A/B тестирования в абсолют и конечные пользователи всегда получают полурабочий продукт, который им предлагают тестировать и сообщать об ошибках, собирая при этом фидбэк.
Ситуация становится особенно занятно, если доступ к продукту платный.
Иными словами, я оплачиваю подписку за то, чтобы тестировать неготовую систему и отдавать свой фидбэк разработчикам.
С момента начала AI-хайпа прошло уже достаточно времени. За весь этот период мне так и не удалось попробовать хотя бы один действительно завершённый, полноценно работающий продукт с нейросетью под капотом.
Во всех случаях, даже если продукт выглядит многообещающим, рано или поздно обнаруживаются недостатки, то картинки кривые генерит, то текст не тот напишет, то забудет о чём речь была два сообщения назад. Наиболее показательный пример - чат-интерфейсы с нейросетями (например ChatGPT или DeepSeek, или Qwen и так далее), в которых повсеместно присутствуют кнопки лайк/дизлайк. Это означает, что от пользователя ожидается разметка и оценка качества работы системы.
AI-содержащие продукты создают занятный прецедент, они возвели идею A/B тестирования в абсолют и конечные пользователи всегда получают полурабочий продукт, который им предлагают тестировать и сообщать об ошибках, собирая при этом фидбэк.
Ситуация становится особенно занятно, если доступ к продукту платный.
Иными словами, я оплачиваю подписку за то, чтобы тестировать неготовую систему и отдавать свой фидбэк разработчикам.
Veo 3 бесплатно на 15 месяцев но есть нюансы
Мой друг Миша поделился схемой получения Google AI Pro через студенческий план сам попробовал работает!
Что получаете
Veo 3 для генерации видео
Gemini Pro с Deep Research
2TB на Google Drive
15 месяцев бесплатно (экономия 300$)
Суть схемы (обожаю темки)
Студенческая почта на etempmail.com + смена региона на США + не российская карта = профит за 5 минут
НО честно говоря меня всегда тригерит, что такие дыры либо специально оставлены Google для привлечения аудитории, либо их скоро прикроют
Слишком уж просто для компании уровня Google "не заметить" такую лазейку
Либо это фича маркетинга, либо скоро будет патч
Детали схемы у Миши в канале, он там подробно расписал весь процесс
Пока работает можно попробовать
Но не удивлюсь, если через месяц-два эту возможность закроют и заблокают арбузеров
Сам пока тестирую Veo 3 — результаты неплохие для бесплатного доступа!
UPDATE: еще подобные гайдлайны
Мой друг Миша поделился схемой получения Google AI Pro через студенческий план сам попробовал работает!
Что получаете
Veo 3 для генерации видео
Gemini Pro с Deep Research
2TB на Google Drive
15 месяцев бесплатно (экономия 300$)
Суть схемы (обожаю темки)
Студенческая почта на etempmail.com + смена региона на США + не российская карта = профит за 5 минут
НО честно говоря меня всегда тригерит, что такие дыры либо специально оставлены Google для привлечения аудитории, либо их скоро прикроют
Слишком уж просто для компании уровня Google "не заметить" такую лазейку
Либо это фича маркетинга, либо скоро будет патч
Детали схемы у Миши в канале, он там подробно расписал весь процесс
Пока работает можно попробовать
Но не удивлюсь, если через месяц-два эту возможность закроют и заблокают арбузеров
Сам пока тестирую Veo 3 — результаты неплохие для бесплатного доступа!
UPDATE: еще подобные гайдлайны
Лучшее AI редактирование фото в open-source
FLUX.1-Kontext-dev
https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
Ну что, ребята молодцы
выпустили модель в open-source
А я скоро протестирую что по локальному железу и скорости
AI редактирование изображений в своих проектах и workflow выходит на новый уровень!
FLUX.1-Kontext-dev
https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
Ну что, ребята молодцы
выпустили модель в open-source
А я скоро протестирую что по локальному железу и скорости
AI редактирование изображений в своих проектах и workflow выходит на новый уровень!
huggingface.co
black-forest-labs/FLUX.1-Kontext-dev · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.