Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
1483 - Telegram Web
Telegram Web
Тем временем нас с вами стало еще больше! Планов на исследования еще больше

Всем прибывышим советую почитать закреп

Спасибо что читаете мой спич!

P.S отдельное спасибо за промоут ребятам
Богдан
Дядя
Ринат
AI Hands
Когда open-source логирование подставляет, а невнимательность с моделями бьет по метрикам 📊

Все вы помните как я переехал на LiteLLM
Вчера у нас был тот самый день, когда все идет не так, как планировалось

OpenAI API частично лежало, задержки до 16 секунд, пользователи в поддержку валом — классика жанра для любого сервиса с высоким MAU

Проблема №1: Слепая зона в мониторинге
Когда пользователи начали жаловаться на тормоза, мы полезли проверять наш LiteLLM прокси. И тут выяснилось, что без лицензии у нас доступны только базовые метрики в /metrics

Мой самописный дашборд показывал, что с прокси все ОК — никаких аномалий
Но задержки-то были! В логах они светились, а в интерфейсе нет
Результат: 2 часа потрачено на копание в прокси, вместо того чтобы сразу проверить статус провайдеров
Ха-ха классический случай "лечим симптомы, а не причину"

Проблема №2: Миграция фильтров без должного тестирования

Наша эволюция фильтров NSFW для FLUX генерации:
- Начали с Llama 3.1 + кастомный промпт для нашего FLUX (низкий RPS легко справлялся локальный кластер)
- Переехали на Qwen2.5 (промпт остался тот же)
- Из-за нагрузки мигрировали на gpt-4o-mini

И вот тут началось веселье!
Промпт, который работал с локальными моделями, на gpt-4o-mini показал себя ужасно да как так то? =)
- 37% False Positive срабатываний
- Пользователи, которые писали "девушка" в запросе, не получали генерацию

После анализа данных из единого прокси (спасибо ему за централизованные логи!) команда R&D быстро поняла масштаб проблемы и сделали первое

1) Выгрузил все срабатывания от момента замены модели
2) Глазами просмотрели все FALSE
3) Поняли что нужно менять

Что сделали:
- Переработали промпт под gpt-4o-mini
- Ввели уровни категоризации вместо бинарной фильтрации
- Добавили структурированный вывод (SO)

Результаты после фикса(все просмотрели глазами)
- Снижение общей фильтрации до 17%
- FP уменьшились до 24%
- Пользователи снова получают нормальные генерации

Проблема №3: Мистический расход токенов на $350

Тут была самая загадочная история! Один из API ключей потребил весь свой бюджет на токены за какие-то 5 запросов. Трекнулось аж целых 350 долларов сразу алерты полетели 🚨

Что я сделал? Натравил на логи агента в Cursor, дал ему доступ через SSH к серверу где лежит проект и указал как писать запросы в БД и где лежат логи и сказал: "Найди что тут не так!"

И знаете что? LLM оказался круче любого DevOps инженера! За несколько минут он нашел, что это web search функция, которая за 1000 запросов стоит $35, а не обычная генерация

Дальше мы с LLM стали искать, где же система неправильно трекает этот параметр. 15 взаимодействий с find и grep — и вуаля! Нашли проблемный участок кода.

Баг найден будет отправлен в репозиторий LiteLLM

Честно, почти везде LLM помогли найти проблему быстрее, чем я бы сам
- Анализ латенси — LLM разобрал логи и указал на узкие места
- Поиск багов — структурированный поиск по кодовой базе
- Анализ трафика — выявление аномальных паттернов в запросах

Мой новый подход
1. Логи → LLM для первичного анализа
2. LLM находит зацепки → я иду копать глубже
3. LLM помогает с grep/awk/sed магией
4. Профит!

По мониторингу
- Open-source решения могут подставить в критический момент
- Нужен собственный экспортер метрик для Grafana
- Логи != метрики в дашборде (очевидно, но забываем)

По фильтрации
- Каждая модель требует отдельной настройки промптов
- A/B тестирование фильтров — не роскошь, а необходимость
- Миграция моделей без тестов = выстрел себе в ногу

По дебагу
- LLM + логи = мощный дуэт для поиска проблем
- Структурированный анализ через AI экономит часы времени
- Всегда держите LLM "под рукой" при инцидентах:

Да, скажете "это же база!" — но опыт есть опыт. Иногда нужно наступить на грабли, чтобы понять, где они лежат 😅

И главное LLM действительно может быть вашим DevOps коллегой. Не заменит, но сильно поможет! Главное не дать выполнить критичные команды (читай каждую команду что генерит LLM)

P.S. Единое прокси снова доказало свою ценность — без централизованного логирования мы бы копались в проблеме намного дольше!
Как GenAI работает в реальных решениях? Расскажем на Conversations

В конце июня встречаемся на одной из главных летних AI-конференций — Conversations 2025. Обсудим, как GenAI становится частью рабочих систем, что помогает не просто тестировать технологии, а внедрять их осознанно, и куда движется индустрия.

От red_mad_robot — два доклада:

Я расскажу, как мы перешли от Naive RAG к workflow-агентским системам, усложнили архитектуру и применяем подход в решении многослойных бизнес-задач.

Илья Филиппов, CEO red_mad_robot AI, вместе с руководителем сервиса книги билайн Натальей Каменских покажет, как AI-поиск работает в продукте и что это даёт пользователю и бизнесу. Кстати Илья завел очень крутой канал где рассказывает про крупный b2b сегмент GenAI в РФ

Конференция пройдёт 26–27 июня в Санкт-Петербурге. Подробности и билеты на сайте, а от меня промокод на 10% — CNVS25sKaV
RAG — можно ли запилить коробку?

Вернулись к тех. вебинарам после более бизнесово-менеджерских)

Позвали наших друзей Елизавету Ермакову, Диму Черноуса из МТС AI и Валерия Ковальского из Neural deep tech, чтобы обсудить, что сейчас больше и больше приходит запросов от супер разных бизнесов на реализацию разных ассистентов с RAG под капотом. Не все могут позволить кастом, да и многие пилят свою "коробку". Интересно – можно ли вообще сделать коробку RAG (и если да, то в рамках каких ограничений).

А вот конкретно:
1. Единый чат-бот (ассистент по знаниям) vs. отдельные сценарии / кейсы. Почему Валера не делает чат-ботов.
2. Коробка RAG vs. Кастом. Какие ограничения технологий. Можно ли поставить коробку где retrieval будет работать.
3. Входной порог к разработке своих решений. vibe coding.
4. Поделиться байками (как многие не понимают что такое RAG, делают FTS, называя это ИИ и тд)/фейлами (типо cost выше стоимости лицензий и тд).

В среду в 16-00, ставьте нотифай в трансляции, ну и в календарик вот
Forwarded from red_mad_robot
red_mad_robot совместно с @beeline представил первую линейку AI-агентов

На ПМЭФ мы показали результат технологического партнёрства с билайном — первую линейку корпоративных AI-агентов, ориентированных на прикладные задачи бизнеса и госсектора.

Агенты закрывают пять ключевых направлений:

📍 Продажи
📍 Контакт-центр
📍 Административные процессы
📍 Разработку
📍 Маркетинг

В отличие от классических чат-ботов, AI-агенты взаимодействуют в формате диалога, понимают задачи в свободной форме, обращаются к внутренним базам данных и внешним источникам информации — и возвращают готовое решение. Это интеллектуальные ассистенты, встроенные в корпоративную инфраструктуру и адаптированные под реальные процессы.

Если вы на ПМЭФ — приходите на наш стенд, чтобы первыми протестировать сценарии вживую.

#AI_moment #роботайм

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Pavel Zloi
Философских размышлений пост

С момента начала AI-хайпа прошло уже достаточно времени. За весь этот период мне так и не удалось попробовать хотя бы один действительно завершённый, полноценно работающий продукт с нейросетью под капотом.

Во всех случаях, даже если продукт выглядит многообещающим, рано или поздно обнаруживаются недостатки, то картинки кривые генерит, то текст не тот напишет, то забудет о чём речь была два сообщения назад. Наиболее показательный пример - чат-интерфейсы с нейросетями (например ChatGPT или DeepSeek, или Qwen и так далее), в которых повсеместно присутствуют кнопки лайк/дизлайк. Это означает, что от пользователя ожидается разметка и оценка качества работы системы.

AI-содержащие продукты создают занятный прецедент, они возвели идею A/B тестирования в абсолют и конечные пользователи всегда получают полурабочий продукт, который им предлагают тестировать и сообщать об ошибках, собирая при этом фидбэк.

Ситуация становится особенно занятно, если доступ к продукту платный.

Иными словами, я оплачиваю подписку за то, чтобы тестировать неготовую систему и отдавать свой фидбэк разработчикам.
Veo 3 бесплатно на 15 месяцев но есть нюансы

Мой друг Миша поделился схемой получения Google AI Pro через студенческий план сам попробовал работает!

Что получаете

Veo 3 для генерации видео
Gemini Pro с Deep Research
2TB на Google Drive
15 месяцев бесплатно (экономия 300$)

Суть схемы (обожаю темки)

Студенческая почта на etempmail.com + смена региона на США + не российская карта = профит за 5 минут

НО честно говоря меня всегда тригерит, что такие дыры либо специально оставлены Google для привлечения аудитории, либо их скоро прикроют
Слишком уж просто для компании уровня Google "не заметить" такую лазейку
Либо это фича маркетинга, либо скоро будет патч

Детали схемы у Миши в канале, он там подробно расписал весь процесс
Пока работает можно попробовать
Но не удивлюсь, если через месяц-два эту возможность закроют и заблокают арбузеров

Сам пока тестирую Veo 3 — результаты неплохие для бесплатного доступа!

UPDATE: еще подобные гайдлайны
Лучшее AI редактирование фото в open-source

FLUX.1-Kontext-dev


https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

Ну что, ребята молодцы
выпустили модель в open-source

А я скоро протестирую что по локальному железу и скорости


AI редактирование изображений в своих проектах и workflow выходит на новый уровень!
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Выступал сегодня на Conversation со своим докладом про Workflow LLM смстемы, обошел ребят и собрал их мнения и цитаты про RAG/LLM продукты под капотом

Соответственно ими хочу поделится в первую очередь

Спасибо
Паше
Саше
Ринату
Богдану
Илье


За дельные мысли (цитаты великих)
2025/06/29 22:58:28
Back to Top
HTML Embed Code: