Представляете, роль тим лида все еще нужна - случайно доказал на ai-агентской системе
Занимаюсь проектом с мультиагентной системой. Получил интересный кейс. Агенты разработчики (python-программист и тестировщик) без тим лида перекладывают ответственность друг на друга и попадают в бесконечный цикл
Они не могли решить, кто виноват в ошибке unit-тестов.👀 Но как только в системе появляется роль тимлида - система начинает работать. Прямо как на обычной работе 🚨
Кстати, эту идею подтверждал и Николас Дженнингс, один из основателей мультиагентных систем. Он утверждал, что продуктивность зависит от структурированного взаимодействия агентов, требующего четких протоколов сотрудничества - по сути, функций, которые и выполняет тимлид в этой системе
Занимаюсь проектом с мультиагентной системой. Получил интересный кейс. Агенты разработчики (python-программист и тестировщик) без тим лида перекладывают ответственность друг на друга и попадают в бесконечный цикл
Они не могли решить, кто виноват в ошибке unit-тестов.
Кстати, эту идею подтверждал и Николас Дженнингс, один из основателей мультиагентных систем. Он утверждал, что продуктивность зависит от структурированного взаимодействия агентов, требующего четких протоколов сотрудничества - по сути, функций, которые и выполняет тимлид в этой системе
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7 2⚡1😁1
Дата канальи — про «специалистов» в данных / ML / AI
Число постов в канале упало не просто так (о, великий султан, на то была тысяча причин). И основная — нам с ребятами очень хотелось систематизировать наработки по мультиагентным системам (мы строим их уже полтора года) и поделиться этими знаниями с миром.…
⬆️⬆️⬆️
Ура, анонс☺️ Никита показал то, над чем мы небольшой командой горели последнее время. В этот курс вложено невероятное количество сил
Собрать простой прототип агента сейчас несложно. Сделать его надежным и управляемым - задача другого уровня. Именно этому и посвящен курс: мы покажем, как выстроить систему, которую можно оценивать, масштабировать и развивать.
Пост назад я уже приоткрыл «внутреннюю кухню» подготовки, а скоро покажу еще пару интересных примеров
Ура, анонс
Собрать простой прототип агента сейчас несложно. Сделать его надежным и управляемым - задача другого уровня. Именно этому и посвящен курс: мы покажем, как выстроить систему, которую можно оценивать, масштабировать и развивать.
Пост назад я уже приоткрыл «внутреннюю кухню» подготовки, а скоро покажу еще пару интересных примеров
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤5👍3
Главный баг Software 3.0
Представьте: вы пишете идеальный промпт, получаете блестящий код, а на следующий день тот же промпт выдает полную ерунду. Добро пожаловать в Software 3.0 - эру, где Андрей Карпатый (мой любимый вайб кодер) предсказал (вот его крутое выступление), что промпты станут новым «языком программирования». Но у этой революции есть фундаментальная проблема, с которой сталкивается каждый, кто пытался получить от модели два одинаковых ответа подряд
Главный парадокс Software 3.0 в том, что переход к простому языку привел к сложной проблеме - невозможности точно воспроизвести результат. Даже при temperature = 0 (режим, который должен быть максимально детерминированным) модели ведут себя непредсказуемо. Исследования показывают, что вариации в точности ответов от запуска к запуску могут достигать 15%. Откуда берется эта случайность?
➡️ Три уровня недетерминированности LLM
Проблема воспроизводимости - это не просто баг, который можно исправить. Она заложена в саму природу современных вычислений на нескольких уровнях
1. Аппаратный уровень
Когда вы запускаете модель на GPU, вы имеете дело с тысячами параллельных ядер. Из-за особенностей архитектуры и арифметики с плавающей запятой, результат операции (a + b) + c не всегда равен a + (b + c). Порядок выполнения этих микроопераций может меняться от запуска к запуску в зависимости от того, какое ядро закончило вычисления на наносекунду раньше
2. Программный уровень
Библиотеки вроде PyTorch и cuDNN, на которых работают все современные модели, содержат алгоритмы, которые по своей природе недетерминистичны. Например, некоторые операции свертки или пулинга специально сделаны такими для повышения скорости. Разработчики сознательно идут на компромисс, жертвуя воспроизводимостью ради производительности
3. Архитектурный уровень
Современные модели используют архитектуру Mixture-of-Experts (MoE). Представьте, что это команда из нескольких узкопрофильных специалистов (экспертов). Для обработки вашего запроса модель выбирает нескольких наиболее подходящих. Но из-за сложной внутренней маршрутизации, в следующий раз для точно такого же запроса может быть выбран немного другой состав «команды экспертов», что приведет к иному результату
А есть примеры из жизни?
Пример1️⃣
Недавно показали игровой движок Hunyuan GameCraft от Tencent. Он способен в реальном времени генерировать игровые сцены, но разработчики столкнулись с ключевой дилеммой: либо мир стабилен, но плохо реагирует на действия игрока, либо он отзывчив, но постоянно «плывет» и теряет консистентность. Наглядный пример недетерминированности на практике
Пример2️⃣
Концепт Gemini Computer от Google. Это операционная система, где каждый элемент интерфейса генерируется LLM на лету. Выглядит футуристично, но в их же демо отлично видно фундаментальную проблему: генерация изначально не подразумевает строгой воспроизводимости. Кнопка «Сохранить», которая была слева, после следующего клика может оказаться справа или вообще изменить название
Пример3️⃣
Проблему накопления ошибок в LLM отлично иллюстрирует аналогия с квантовыми компьютерами. Представьте, что точность одной квантовой операции - 99%. Звучит неплохо. Но если для вычисления нужно провести 1000 таких операций, общая надежность падает до 0.99^1000, что практически равно нулю. С LLM происходит то же самое: при генерации длинного текста или кода крошечные отклонения накапливаются, и финальный результат «уплывает» далеко от первоначального замысла
➡️ GitLab для эпохи Software 3.0
Так что же делать в этом дивном новом мире?
Лично мне видится решение в виде надстройки для привычных систем вроде GitLab, которая будет версионировать не одну, а сразу три плоскости нашего проекта:
🔵 Код - финальный артефакт, как и сейчас
🔵 Промпт - инструкция, которая сгенерировала этот код
🔵 Модель - конкретная версия LLM (например, Gemini 2.5 Flash Preview 04-17)
Это позволит отслеживать всю цепочку создания продукта и откатываться к стабильной связке «промпт-модель»
Эпоха Software 3.0 требует новых инструментов, и, похоже, нам предстоит их создать💪
Представьте: вы пишете идеальный промпт, получаете блестящий код, а на следующий день тот же промпт выдает полную ерунду. Добро пожаловать в Software 3.0 - эру, где Андрей Карпатый (мой любимый вайб кодер) предсказал (вот его крутое выступление), что промпты станут новым «языком программирования». Но у этой революции есть фундаментальная проблема, с которой сталкивается каждый, кто пытался получить от модели два одинаковых ответа подряд
Главный парадокс Software 3.0 в том, что переход к простому языку привел к сложной проблеме - невозможности точно воспроизвести результат. Даже при temperature = 0 (режим, который должен быть максимально детерминированным) модели ведут себя непредсказуемо. Исследования показывают, что вариации в точности ответов от запуска к запуску могут достигать 15%. Откуда берется эта случайность?
Проблема воспроизводимости - это не просто баг, который можно исправить. Она заложена в саму природу современных вычислений на нескольких уровнях
1. Аппаратный уровень
Когда вы запускаете модель на GPU, вы имеете дело с тысячами параллельных ядер. Из-за особенностей архитектуры и арифметики с плавающей запятой, результат операции (a + b) + c не всегда равен a + (b + c). Порядок выполнения этих микроопераций может меняться от запуска к запуску в зависимости от того, какое ядро закончило вычисления на наносекунду раньше
2. Программный уровень
Библиотеки вроде PyTorch и cuDNN, на которых работают все современные модели, содержат алгоритмы, которые по своей природе недетерминистичны. Например, некоторые операции свертки или пулинга специально сделаны такими для повышения скорости. Разработчики сознательно идут на компромисс, жертвуя воспроизводимостью ради производительности
3. Архитектурный уровень
Современные модели используют архитектуру Mixture-of-Experts (MoE). Представьте, что это команда из нескольких узкопрофильных специалистов (экспертов). Для обработки вашего запроса модель выбирает нескольких наиболее подходящих. Но из-за сложной внутренней маршрутизации, в следующий раз для точно такого же запроса может быть выбран немного другой состав «команды экспертов», что приведет к иному результату
А есть примеры из жизни?
Пример
Недавно показали игровой движок Hunyuan GameCraft от Tencent. Он способен в реальном времени генерировать игровые сцены, но разработчики столкнулись с ключевой дилеммой: либо мир стабилен, но плохо реагирует на действия игрока, либо он отзывчив, но постоянно «плывет» и теряет консистентность. Наглядный пример недетерминированности на практике
Пример
Концепт Gemini Computer от Google. Это операционная система, где каждый элемент интерфейса генерируется LLM на лету. Выглядит футуристично, но в их же демо отлично видно фундаментальную проблему: генерация изначально не подразумевает строгой воспроизводимости. Кнопка «Сохранить», которая была слева, после следующего клика может оказаться справа или вообще изменить название
Пример
Проблему накопления ошибок в LLM отлично иллюстрирует аналогия с квантовыми компьютерами. Представьте, что точность одной квантовой операции - 99%. Звучит неплохо. Но если для вычисления нужно провести 1000 таких операций, общая надежность падает до 0.99^1000, что практически равно нулю. С LLM происходит то же самое: при генерации длинного текста или кода крошечные отклонения накапливаются, и финальный результат «уплывает» далеко от первоначального замысла
Так что же делать в этом дивном новом мире?
Лично мне видится решение в виде надстройки для привычных систем вроде GitLab, которая будет версионировать не одну, а сразу три плоскости нашего проекта:
Это позволит отслеживать всю цепочку создания продукта и откатываться к стабильной связке «промпт-модель»
Эпоха Software 3.0 требует новых инструментов, и, похоже, нам предстоит их создать
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍6❤4 2❤🔥1
Вопрос на Senior AI-инженера, к которому вы не готовы: расскажите о паттерне Chain of Debate
Прямо на наших глазах рождается новая инженерная дисциплина - Agent System Design (ASD). Название придумал не я (первые работы по теме были еще в прошлом веке, частично упоминал в этой публикации), но оно чертовски точное. Если классический системный дизайн оперирует базами данных и API, а ML System Design - пайплайнами и моделями, то ASD фокусируется на динамике, координации и поведении целого коллектива агентов. Это проектирование не просто системы, а организации из AI-агентов
Такое рождение архитектурной парадигмы уже случалось ранее. Вспомните историю нейросетей. Десятки прорывных архитектур, от GAN и VAE до Transformer, были собраны из одних и тех же блоков: линейных слоев, сверток и функций активации. Прорыв был не в новых компонентах, а в новых способах их соединения. GAN - это архитектура спора. Transformer - архитектура внимания
Сегодня с агентами происходит ровно то же самое. Базовые компоненты - LLM с их способностью планировать и юзать тулы уже есть у всех. Настоящая магия происходит на уровне архитектуры их взаимодействия
Очень важный кейс
Недавняя работа от Microsoft - мультиагентная система MAI-DxO для медицинской диагностики. Система - это целая команда из пяти специализированных агентов: Gatekeeper (первичный прием), Dr. Hypothesis (выдвигает гипотезы), Dr. Challenger (критикует их) и так далее
Какой результат? В сложных случаях MAI-DxO достигает точности 85.5%, в то время как отдельные врачи в тех же условиях - всего 20%. Для этого они реализовали архитектурный паттерн "Chain of Debate". Агенты не тупо передают инфу по цепочке, а вступают в структурированную дискуссию, оспаривая и проверяя выводы друг друга
Ничего не напоминает? Привет, доменная экспертиза и врачебные консилиумы. Microsoft не изобрели велосипед, а просто перенесли работающую организационную структуру в мир AI. Это и есть Agent System Design в действии
Окей, а не получится ли так, что агенты будут проектировать сами себя?
Логичный вопрос. По аналогии с Neural Architecture Search, который когда-то (с переменным успехом) пытался найти оптимальные архитектуры нейросетей, вполне могут появиться и системы Agent Architecture Search. Такие «фабрики агентов», которые сами будут собирать команды под задачу
Но, по моему мнению, сегодня и в ближайшие пару лет именно человеческий скилл архитектурного мышления (кстати, уже делал пост на эту тему) остается главным конкурентным преимуществом. Умение собрать агентов в эффективную команду - вот что важно
Так что же в итоге?
А то, что базовые компоненты (LLM) уже есть, и они достаточно хороши. Эпоха одной большой модели заканчивается. Это значит, что гонка за метриками уступает место главному - архитектуре. Поэтому призыв простой: хватит думать об агенте, пора думать об их команде. Именно навык agent system design позволяет создавать крутые AI-продукты уже сегодня
Прямо на наших глазах рождается новая инженерная дисциплина - Agent System Design (ASD). Название придумал не я (первые работы по теме были еще в прошлом веке, частично упоминал в этой публикации), но оно чертовски точное. Если классический системный дизайн оперирует базами данных и API, а ML System Design - пайплайнами и моделями, то ASD фокусируется на динамике, координации и поведении целого коллектива агентов. Это проектирование не просто системы, а организации из AI-агентов
Такое рождение архитектурной парадигмы уже случалось ранее. Вспомните историю нейросетей. Десятки прорывных архитектур, от GAN и VAE до Transformer, были собраны из одних и тех же блоков: линейных слоев, сверток и функций активации. Прорыв был не в новых компонентах, а в новых способах их соединения. GAN - это архитектура спора. Transformer - архитектура внимания
Сегодня с агентами происходит ровно то же самое. Базовые компоненты - LLM с их способностью планировать и юзать тулы уже есть у всех. Настоящая магия происходит на уровне архитектуры их взаимодействия
Очень важный кейс
Недавняя работа от Microsoft - мультиагентная система MAI-DxO для медицинской диагностики. Система - это целая команда из пяти специализированных агентов: Gatekeeper (первичный прием), Dr. Hypothesis (выдвигает гипотезы), Dr. Challenger (критикует их) и так далее
Какой результат? В сложных случаях MAI-DxO достигает точности 85.5%, в то время как отдельные врачи в тех же условиях - всего 20%. Для этого они реализовали архитектурный паттерн "Chain of Debate". Агенты не тупо передают инфу по цепочке, а вступают в структурированную дискуссию, оспаривая и проверяя выводы друг друга
Ничего не напоминает? Привет, доменная экспертиза и врачебные консилиумы. Microsoft не изобрели велосипед, а просто перенесли работающую организационную структуру в мир AI. Это и есть Agent System Design в действии
Окей, а не получится ли так, что агенты будут проектировать сами себя?
Логичный вопрос. По аналогии с Neural Architecture Search, который когда-то (с переменным успехом) пытался найти оптимальные архитектуры нейросетей, вполне могут появиться и системы Agent Architecture Search. Такие «фабрики агентов», которые сами будут собирать команды под задачу
Но, по моему мнению, сегодня и в ближайшие пару лет именно человеческий скилл архитектурного мышления (кстати, уже делал пост на эту тему) остается главным конкурентным преимуществом. Умение собрать агентов в эффективную команду - вот что важно
Так что же в итоге?
А то, что базовые компоненты (LLM) уже есть, и они достаточно хороши. Эпоха одной большой модели заканчивается. Это значит, что гонка за метриками уступает место главному - архитектуре. Поэтому призыв простой: хватит думать об агенте, пора думать об их команде. Именно навык agent system design позволяет создавать крутые AI-продукты уже сегодня
🔥15👍4 3 1
BERTScore vs косинус: лайфхак для подготовки к конференции с помощью алгоритмов RAG-а
Недавно готовился к выступлению на AhaConf, а это, на минуточку, 70+ спикеров и 1000+ слушателей. Сразу возникает классическая проблема: как сделать свой доклад уникальным и не повторить то, что уже рассказали до тебя?
Многие думают, что RAG - это какая-то сложная штука для enterprise-задач. Но на деле это просто очень здравый подход к работе с информацией. И я применил его при подготовке к выступлению: нашел релевантные данные (Retrieval) в программе конференции, чтобы улучшить свое выступление. Получился такой RAG для одного человека
Зачем вообще искать похожие доклады?
Главный страх любого спикера - выйти на сцену и понять, что твою ключевую мысль только что озвучил предыдущий оратор. Чтобы избежать этого фейла и выжать из конфы максимум, я поставил две цели:
1️⃣ Дифференцироваться от коллег. Найти тех, кто говорит на смежные темы, чтобы скорректировать свой доклад, добавить уникальности и не лить воду, которую слушатели уже слышали
2️⃣ Нетворкинг. Заранее вычислить «своих» по духу и темам. С таким списком можно подходить в кулуарах не с банальным «чем занимаешься?», а с конкретным «слушай, видел твой доклад про X, у меня как раз очень похожий кейс»
План эксперимента: старый добрый косинус против BERTScore
Мой план был прост:
1️⃣ Собрать данные: выгрузить все названия и описания докладов
2️⃣ Измерить близость: прогнать каждый доклад через два фильтра для сравнения с моим - старую добрую косинусную близость и более «вдумчивый» BERTScore
3️⃣ Проанализировать топ-5 от каждого метода и посмотреть, какие доклады попали в топ
Что получилось
И вот тут-то и проявилась вся разница подходов
Косинусная близость. Этот метод представляет каждый текст как единый числовой вектор (эмбеддинг), усредняя его семантическое содержание. Он эффективно находит документы с лексическими пересечениями, но из-за усреднения контекста может упустить более сложные семантические связи, если они выражены синонимичными или описательными конструкциями
BERTScore. Этот подход работает на более детальном уровне, сопоставляя контекстные эмбеддинги каждого токена из одного текста с токенами другого. На основе этой матрицы попарных сходств он вычисляет метрику F1, что позволяет улавливать локальные семантические связи, например, между «ML-платформой» и «автоматизацией ресурсов», даже при отсутствии общих ключевых слов. (подробнее в оригинальной статье «BERTScore: Evaluating Text Generation with BERT»). Но из-за циклично расчета эмбедингов время получения метрики растет в разы
Главный вывод: дилемма близости в RAG - скорость или глубина?
Мой эксперимент отлично подсветил классический компромисс в мире RAG: выбор между скоростью и семантической глубиной. Здесь нет однозначного победителя, потому что косинусная близость и BERTScore решают разные задачи
По сути, идеальный RAG-пайплайн часто использует оба подхода в связке, как это подтверждают и исследования, и многочисленные гайды от практиков. Использовать только косинус - быстро, но рискуешь получить поверхностный результат (привет реранкерам). Использовать только BERTScore - качественно, но непозволительно медленно
Если бы кто-то придумал «быстрый BERTScore», это бы кардинально изменило подходы к поиску релевантных чанков в RAG. Мы бы получили поиск, который по-настоящему понимает запрос. Но пока приходится жить в мире компромиссов
А для тех, кто хочет провести похожий анализ, я, по традиции, выложил весь код в репозиторий. Забирайте и экспериментируйте💪
Недавно готовился к выступлению на AhaConf, а это, на минуточку, 70+ спикеров и 1000+ слушателей. Сразу возникает классическая проблема: как сделать свой доклад уникальным и не повторить то, что уже рассказали до тебя?
Многие думают, что RAG - это какая-то сложная штука для enterprise-задач. Но на деле это просто очень здравый подход к работе с информацией. И я применил его при подготовке к выступлению: нашел релевантные данные (Retrieval) в программе конференции, чтобы улучшить свое выступление. Получился такой RAG для одного человека
Зачем вообще искать похожие доклады?
Главный страх любого спикера - выйти на сцену и понять, что твою ключевую мысль только что озвучил предыдущий оратор. Чтобы избежать этого фейла и выжать из конфы максимум, я поставил две цели:
План эксперимента: старый добрый косинус против BERTScore
Мой план был прост:
Что получилось
И вот тут-то и проявилась вся разница подходов
Косинусная близость. Этот метод представляет каждый текст как единый числовой вектор (эмбеддинг), усредняя его семантическое содержание. Он эффективно находит документы с лексическими пересечениями, но из-за усреднения контекста может упустить более сложные семантические связи, если они выражены синонимичными или описательными конструкциями
BERTScore. Этот подход работает на более детальном уровне, сопоставляя контекстные эмбеддинги каждого токена из одного текста с токенами другого. На основе этой матрицы попарных сходств он вычисляет метрику F1, что позволяет улавливать локальные семантические связи, например, между «ML-платформой» и «автоматизацией ресурсов», даже при отсутствии общих ключевых слов. (подробнее в оригинальной статье «BERTScore: Evaluating Text Generation with BERT»). Но из-за циклично расчета эмбедингов время получения метрики растет в разы
Главный вывод: дилемма близости в RAG - скорость или глубина?
Мой эксперимент отлично подсветил классический компромисс в мире RAG: выбор между скоростью и семантической глубиной. Здесь нет однозначного победителя, потому что косинусная близость и BERTScore решают разные задачи
По сути, идеальный RAG-пайплайн часто использует оба подхода в связке, как это подтверждают и исследования, и многочисленные гайды от практиков. Использовать только косинус - быстро, но рискуешь получить поверхностный результат (привет реранкерам). Использовать только BERTScore - качественно, но непозволительно медленно
Если бы кто-то придумал «быстрый BERTScore», это бы кардинально изменило подходы к поиску релевантных чанков в RAG. Мы бы получили поиск, который по-настоящему понимает запрос. Но пока приходится жить в мире компромиссов
А для тех, кто хочет провести похожий анализ, я, по традиции, выложил весь код в репозиторий. Забирайте и экспериментируйте
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3
Как школьники решают задачи по AI на уровне магистров
В пятницу провел четырехчасовую тренировку для наших школьников, которые едут на Международную олимпиаду по ИИ (IOAI), и до сих пор под впечатлением. Задачи - серьезные, на уровне магистров: CV, NLP, классика на таблицах. Но поразил меня не столько уровень решений, сколько один паттерн, который прослеживался почти везде
Есть один инструмент, который ребята использовали в ~85% случаев. Угадаете какой? Конечно, CatBoost. Его умудрялись прикрутить даже для классификации картинок и анализа текстов. И это не от лени или незнания других архитектур. Это прагматизм в чистом виде: если инструмент достаточно гибкий и мощный, чтобы решать 85% задач «в лоб», зачем усложнять? С определенными трюками такой подход для олимпиады - самое то
Я, честно говоря, не могу вспомнить ни одного знакомого DS-а из IT-компаний, у кого бы в проде не стоял CatBoost в том или ином виде🧐
Вся эта подготовка - финальный рывок перед главным событием. Олимпиада пройдет со 2 по 9 августа в Пекине. Это огромное достижение для ребят - представлять страну на таком уровне. Буду внимательно следить за успехами нашей команды, а значит и вы тоже✨
P.S. Хотите узнать, какие вопросы о внутреннем устройстве CatBoost я задаю на собеседованиях, чтобы проверить глубину понимания, а не просто знание .fit() и .predict()? Накидайте реакций 🔥, и я напишу об этом отдельный пост
P.P.S Ребят курирует Саша, он пишет о всех тонкостях процесса довольно часто
В пятницу провел четырехчасовую тренировку для наших школьников, которые едут на Международную олимпиаду по ИИ (IOAI), и до сих пор под впечатлением. Задачи - серьезные, на уровне магистров: CV, NLP, классика на таблицах. Но поразил меня не столько уровень решений, сколько один паттерн, который прослеживался почти везде
Есть один инструмент, который ребята использовали в ~85% случаев. Угадаете какой? Конечно, CatBoost. Его умудрялись прикрутить даже для классификации картинок и анализа текстов. И это не от лени или незнания других архитектур. Это прагматизм в чистом виде: если инструмент достаточно гибкий и мощный, чтобы решать 85% задач «в лоб», зачем усложнять? С определенными трюками такой подход для олимпиады - самое то
Я, честно говоря, не могу вспомнить ни одного знакомого DS-а из IT-компаний, у кого бы в проде не стоял CatBoost в том или ином виде
Вся эта подготовка - финальный рывок перед главным событием. Олимпиада пройдет со 2 по 9 августа в Пекине. Это огромное достижение для ребят - представлять страну на таком уровне. Буду внимательно следить за успехами нашей команды, а значит и вы тоже
P.S. Хотите узнать, какие вопросы о внутреннем устройстве CatBoost я задаю на собеседованиях, чтобы проверить глубину понимания, а не просто знание .fit() и .predict()? Накидайте реакций 🔥, и я напишу об этом отдельный пост
P.P.S Ребят курирует Саша, он пишет о всех тонкостях процесса довольно часто
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42❤5 4👎1
Выходные созданы для вайба, но мой вайб закончился. Впервые за три месяца исчерпал свой лимит на cursor за 20$, но это не конец истории. В Cursor мне любезно предоставили возможность потратить еще 30$ за их счет, так что общий чек за месяц составил 50$ 📈
Откуда такая щедрость и почему компания готова работать себе в убыток?📉
В первую очередь, мы платим не только деньгами. Основная валюта в новой экономике ИИ - это данные о нашем взаимодействии с моделью. Каждый запрос, успешный или неудачный будет использоваться для обучения и доработки, особенно для развития способности моделей к сложным рассуждениям.
Представьте: вы с помощью ИИ создаете стартап. Модель обучается на истории ваших идей и итераций. Теоретически, в будущем другой пользователь сможет сформулировать запрос, который воспроизведет вашу бизнес-логику, ведь нейросеть уже будет обучена на вашем примере. Мы платим за дешевый доступ своим интеллектуальным вкладом, который делает модели умнее.
И да, в Cursor есть private mode, который, вероятно, вас защитит.👀 Он работает только если вы догадались его включить. По умолчанию данные уходят в обучение. Ну а Google и OpenAI честно признаются в политиках об использовании пользовательских данных для тренировки моделей
💃 #vibe_coding@ml_maxim
Откуда такая щедрость и почему компания готова работать себе в убыток?
В первую очередь, мы платим не только деньгами. Основная валюта в новой экономике ИИ - это данные о нашем взаимодействии с моделью. Каждый запрос, успешный или неудачный будет использоваться для обучения и доработки, особенно для развития способности моделей к сложным рассуждениям.
Представьте: вы с помощью ИИ создаете стартап. Модель обучается на истории ваших идей и итераций. Теоретически, в будущем другой пользователь сможет сформулировать запрос, который воспроизведет вашу бизнес-логику, ведь нейросеть уже будет обучена на вашем примере. Мы платим за дешевый доступ своим интеллектуальным вкладом, который делает модели умнее.
И да, в Cursor есть private mode, который, вероятно, вас защитит.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8 5❤3 3
Они это сделали
Помните я рассказывал про школьников, которые готовились к олимпиаде по ИИ?
Буквально только что на стриме Саши стало известно, что ребята получили:
🥇 6 золотых
🥈 1 серебро
🥉 1 бронзу
От всего сердца поздравляю команду и их великолепного тренера! Будущее AI в надежных руках💪
Помните я рассказывал про школьников, которые готовились к олимпиаде по ИИ?
Буквально только что на стриме Саши стало известно, что ребята получили:
🥇 6 золотых
🥈 1 серебро
🥉 1 бронзу
От всего сердца поздравляю команду и их великолепного тренера! Будущее AI в надежных руках
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉17🔥6🏆5❤2
Когда AI-агент предлагает кронштейн вместо телевизора
Короче, история. Решил я тут потестировать одного AI-агента для покупок. Вбил простой, на первый взгляд, запрос: «хочу телевизор чтобы повесить на стену»
И что вы думаете? Этот агент проигнорировал главное слово «телевизор» и вцепился в фразу «повесить на стену» и начал мне предлагать… кронштейны🤦♂️ . И вроде бы логично, а с другой стороны - ну нет. Можно же было и дрель с шурупами предложить, чего уж там
Этот забавный сбой - яркий пример того, как RAG-системы могут спотыкаться о буквальную трактовку, упуская суть запроса. Как это исправить? Существует несколько продвинутых техник для настройки RAG-пайплайнов, рассмотрим некоторые из них
⭐️ Подход 1: Query Expansion
Вместо того чтобы слепо следовать запросу пользователя, система с Query Expansion генерирует несколько его вариаций, чтобы лучше понять контекст. То есть, она бы не просто искала «повесить» и «стена», а додумалась бы до запросов вроде: «телевизоры с настенным креплением» или «купить телевизор для монтажа на стену». Так основной объект телевизор остался бы в фокусе.
⭐️ Подход 2: Multi-Step RAG
Multi-step RAG - это когда система не пытается решить все в один заход, а бьет задачу на этапы. В моем случае это выглядело бы так:
⏩ Шаг 1: Выделить главное: объект («телевизор») и действие («повесить на стену»)
⏩ Шаг 2: Сначала найти «телевизоры». И только их
⏩ Шаг 3: Из найденного отфильтровать те, что подходят под «повесить на стену»
⭐️ Подход 3: Метаданные как фильтр
Каждый товар в базе можно (и нужно!) обвешать тегами: категория, тип, цена и т.д. В контексте RAG-пайплайна важны все детали: от диагонали экрана до адреса склада
Если каждый товар в базе данных магазина имеет мета-теги вроде category: "television" или type: "wall_mount" , система сработает лучше. Мой запрос «хочу телевизор» активировал бы фильтр по категории television , и даже слова «повесить на стену» не смогли бы сбить его с толку и заставить искать аксессуары
⭐️ Подход 4: Агенты-критики и Chain of Debate
Парадигма multi-agent debate предполагает, что над задачей работает не один, а несколько специализированных AI-агентов, которые ведут «дебаты» для поиска лучшего решения
Представьте их диалог:
〰️ Агент «Анализатор запроса»: «Пользователь хочет что-то повесить на стену. Наверное, ему нужен кронштейн».
〰️ Агент «Эксперт по товарам»: «Подожди, основной объект в запросе - “телевизор”. Это главный товар. Фраза “повесить на стену” - это характеристика, а не самостоятельный запрос. Предлагать аксессуар, не убедившись в наличии телевизора, - это плохой клиентский опыт».
〰️ Агент «Модератор»: «Решено. Ищем телевизоры, которые можно повесить на стену».
Индустрия AI-агентов развивается стремительно, и сама возможность создавать «агентов для покупок» - это уже большое достижение💪 . Однако, как показывает этот случай, RAG-архитектуры нуждаются в тонкой настройке.
Stay tuned - в будущих постах обязательно разберем каждый из этих подходов подробнее
P.S. ранее уже разбирал, где можно улучшить ваш RAG-Pipeline
Короче, история. Решил я тут потестировать одного AI-агента для покупок. Вбил простой, на первый взгляд, запрос: «хочу телевизор чтобы повесить на стену»
И что вы думаете? Этот агент проигнорировал главное слово «телевизор» и вцепился в фразу «повесить на стену» и начал мне предлагать… кронштейны
Этот забавный сбой - яркий пример того, как RAG-системы могут спотыкаться о буквальную трактовку, упуская суть запроса. Как это исправить? Существует несколько продвинутых техник для настройки RAG-пайплайнов, рассмотрим некоторые из них
Вместо того чтобы слепо следовать запросу пользователя, система с Query Expansion генерирует несколько его вариаций, чтобы лучше понять контекст. То есть, она бы не просто искала «повесить» и «стена», а додумалась бы до запросов вроде: «телевизоры с настенным креплением» или «купить телевизор для монтажа на стену». Так основной объект телевизор остался бы в фокусе.
Multi-step RAG - это когда система не пытается решить все в один заход, а бьет задачу на этапы. В моем случае это выглядело бы так:
Каждый товар в базе можно (и нужно!) обвешать тегами: категория, тип, цена и т.д. В контексте RAG-пайплайна важны все детали: от диагонали экрана до адреса склада
Если каждый товар в базе данных магазина имеет мета-теги вроде category: "television" или type: "wall_mount" , система сработает лучше. Мой запрос «хочу телевизор» активировал бы фильтр по категории television , и даже слова «повесить на стену» не смогли бы сбить его с толку и заставить искать аксессуары
Парадигма multi-agent debate предполагает, что над задачей работает не один, а несколько специализированных AI-агентов, которые ведут «дебаты» для поиска лучшего решения
Представьте их диалог:
Индустрия AI-агентов развивается стремительно, и сама возможность создавать «агентов для покупок» - это уже большое достижение
Stay tuned - в будущих постах обязательно разберем каждый из этих подходов подробнее
P.S. ранее уже разбирал, где можно улучшить ваш RAG-Pipeline
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥3 2 1
Расскажу про Data Science в мире больших данных на летней школе от ФКН ВШЭ, приходите послушать 23 августа 👋
Буду выступать с темой: «Что делать с данными, когда их слишком много: от Big Data к Smart Data» (я начинаю в 12:15)
Весь движ организует Центр непрерывного образования ФКН НИУ ВШЭ
Мир IT удивительно тесный, поэтому обнаружил среди спикеров Аню, мы вместе работали в Ситимобил над самым лучшим сервисом такси🧐
Также будут спикеры из Т-банка, Яндекса, Альфа-Банка, X5 Tech, Magnit Tech, Авито, Вкусно — и точка, и другие
Когда: 21 августа в онлайн-формате, 23 августа — очно.
Где: Центр Культур НИУ ВШЭ, г. Москва, Покровский бульвар, 11.
Участие бесплатное для всех желающих, но требуется регистрация: по ссылке
Пишите, если придете и захотите пообщаться в кулуарах☕️
Буду выступать с темой: «Что делать с данными, когда их слишком много: от Big Data к Smart Data» (я начинаю в 12:15)
Весь движ организует Центр непрерывного образования ФКН НИУ ВШЭ
Мир IT удивительно тесный, поэтому обнаружил среди спикеров Аню, мы вместе работали в Ситимобил над самым лучшим сервисом такси
Также будут спикеры из Т-банка, Яндекса, Альфа-Банка, X5 Tech, Magnit Tech, Авито, Вкусно — и точка, и другие
Когда: 21 августа в онлайн-формате, 23 августа — очно.
Где: Центр Культур НИУ ВШЭ, г. Москва, Покровский бульвар, 11.
Участие бесплатное для всех желающих, но требуется регистрация: по ссылке
Пишите, если придете и захотите пообщаться в кулуарах
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6⚡4👍3❤2🗿2 1
This media is not supported in your browser
VIEW IN TELEGRAM
Copilot, налоги, роботы 🤖
Давно хотел поднять эту тему, а на днях судьба сама подкинула повод - столкнулся в кафе с парой роботов от Pudu Robotics. Выглядит футуристично: они развозят заказы, помогают персоналу и, очевидно, повышают эффективность бизнеса. Получается замена человека в рутинных задачах
На фоне таких трендов в правительстве уже обсуждают идею введения налога на роботов. Логика простая: компании сокращают персонал, а значит, падает объём страховых отчислений в бюджет. Налог мог бы это компенсировать. Пока в России такой меры нет, но почва для трансформации готовится
Раньше говорили: «Не пойдет учеба - пойдешь на завод». Скоро, похоже, и на завод без диплома магистра по робототехнике не пройдёшь 😰
С физическим миром всё более-менее ясно, но что насчет офисов? Здесь автоматизация еще интереснее. Если появится налог на «железных» роботов, не возникнет ли следом идея обложить налогом и «программных»? Представьте себе AI-аналитиков, AI-программистов или целые AI-команды. Хотя, скорее всего, бизнес найдёт лазейку. Ведь можно назвать это не «AI-программист», а «Copilot для программиста». Инструмент, а не замена. И тогда гипотетический налог платить, вероятно, не придется
Да мы и сами в команде грешим ускорением всей этой автоматизации, делали ранее публикацию на эту тему.
В удивительное время живем🍿
Давно хотел поднять эту тему, а на днях судьба сама подкинула повод - столкнулся в кафе с парой роботов от Pudu Robotics. Выглядит футуристично: они развозят заказы, помогают персоналу и, очевидно, повышают эффективность бизнеса. Получается замена человека в рутинных задачах
На фоне таких трендов в правительстве уже обсуждают идею введения налога на роботов. Логика простая: компании сокращают персонал, а значит, падает объём страховых отчислений в бюджет. Налог мог бы это компенсировать. Пока в России такой меры нет, но почва для трансформации готовится
С физическим миром всё более-менее ясно, но что насчет офисов? Здесь автоматизация еще интереснее. Если появится налог на «железных» роботов, не возникнет ли следом идея обложить налогом и «программных»? Представьте себе AI-аналитиков, AI-программистов или целые AI-команды. Хотя, скорее всего, бизнес найдёт лазейку. Ведь можно назвать это не «AI-программист», а «Copilot для программиста». Инструмент, а не замена. И тогда гипотетический налог платить, вероятно, не придется
Да мы и сами в команде грешим ускорением всей этой автоматизации, делали ранее публикацию на эту тему.
В удивительное время живем
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3 2 1
Положить LLM в карман: стоит ли выносить языковую модель из облака?
В какой-то момент гонка за облачными мощностями начинает утомлять. Ты привыкаешь, что для любой серьезной задачи с LLM нужен API-ключ и хороший бюджет. Но в IT, как известно, все циклично, и вот снова набирает силу тренд на on-device AI - возвращение вычислений с небес на землю, прямо на наши устройства
Поработав с разными облачными провайдерами, начинаешь задумывался об альтернативе - запуске LLM на собственном железе.
Для меня последней каплей стал пост Иэна Баллантайна (Linkedin), где он заставил свежую Gemma 3 270M от Google летать на Raspberry Pi 5. Его цифры - около 30-32 токенов в секунду на голом CPU - звучали слишком хорошо, чтобы быть правдой (ниже будет видео от автора)
Цитата автора:
Увидев такие цифры, я окончательно решился повторить его эксперимент
Мой тестовый стенд
Конечно, в мечтах - домашний мини-кластер на четырех GPU, но начнем с малого. Мой сетап для эксперимента:
Устройство: Orange Pi 5 Pro с 16 ГБ оперативной памяти (оно по некоторым параметрам даже превосходит то, что было у Иэна)
Кандидаты на запуск:
✨ Frida - компактная русскоязычная модель от команды ai-forever, удобная для экспериментов за счёт небольшого размера (<300 M параметров) и открытых QAT-чекпоинтов
✨ Gemma 3 270M - свежая модель от Google, оптимизированная для энергоэффективности и быстрой тонкой настройки
Главный вопрос: какая в этом мотивация?
Прежде чем погружаться в технические дебри, я решил посчитать, имеет ли эта затея экономический смысл
Окупаемость железа
- Аренда схожего по характеристикам облачного CPU-сервера – ≈ 5 300 ₽/мес
- Покупка Orange Pi 5 Pro – ≈ 12 000 ₽
- Разделив, получаем ≈ 2.3 месяца до полной окупаемости оборудования
Дополнительные затраты
Конечно, в расчёт не вошла стоимость моего времени на настройку. Но для энтузиаста это скорее удовольствие, а потребление энергии устройством (≈ 6–10 Вт под нагрузкой) сравнимо с ежемесячным счетом за лампочку, в то время как облачные серверы обходятся в сотни рублей за час работы.
📌 Вывод: локальный деплой выгоден при регулярных нагрузках; для редких задач облако остаётся привлекательным
Экономия на API-токенах
А вот здесь все не так однозначно. Если вам нужно лишь изредка обращаться к модели, использование API через облако может быть очень дешевым. Например, для редких задач вызовы самой доступной русскоязычной модели обошлись бы примерно в 0,02 ₽ за 1 000 000 токенов. Очевидно, что покупать отдельное устройство из-за такой низкой цены токена бессмысленно.
📌 Вывод: Локальный деплой выгоден, если вы заменяете им постоянно работающий облачный сервер, а не редкие API-вызовы
Зачем это нужно в глобальном смысле?
Экономия - это приятно, но потенциал локальных моделей гораздо шире. Вы думаете, успехи Китая в роботизации - это шутки? Локальные LLM играют в этом ключевую роль. Робот на производстве или дрон-курьер не могут зависеть от стабильности интернет-соединения с дата-центром. Им нужна автономия
Перенос AI на устройства дает:
🔵 Приватность: Данные обрабатываются локально и не утекают на сторонние серверы
🔵 Низкую задержку: Отклик модели происходит мгновенно, что критически важно для систем реального времени
🔵 Надежность: Устройство работает даже без подключения к сети
Что дальше?
Я пока только приступил к тестам и в ближайших планах развернуть Frida и Gemma 3 270m на своем Orange Pi. Очень интересно, какие результаты удастся получить и насколько они будут близки к показателям на Raspberry Pi
#hardware
В какой-то момент гонка за облачными мощностями начинает утомлять. Ты привыкаешь, что для любой серьезной задачи с LLM нужен API-ключ и хороший бюджет. Но в IT, как известно, все циклично, и вот снова набирает силу тренд на on-device AI - возвращение вычислений с небес на землю, прямо на наши устройства
Поработав с разными облачными провайдерами, начинаешь задумывался об альтернативе - запуске LLM на собственном железе.
Для меня последней каплей стал пост Иэна Баллантайна (Linkedin), где он заставил свежую Gemma 3 270M от Google летать на Raspberry Pi 5. Его цифры - около 30-32 токенов в секунду на голом CPU - звучали слишком хорошо, чтобы быть правдой (ниже будет видео от автора)
Цитата автора:
как быстро работает Gemma 3 270M "из коробки" на Raspberry Pi 5? Около 30 токенов/сек на CPU для квантизованной модели Q4_0 при использовании Ollama. Я также попробовал Llama.cpp и получил около 32 токенов/сек
Увидев такие цифры, я окончательно решился повторить его эксперимент
Мой тестовый стенд
Конечно, в мечтах - домашний мини-кластер на четырех GPU, но начнем с малого. Мой сетап для эксперимента:
Устройство: Orange Pi 5 Pro с 16 ГБ оперативной памяти (оно по некоторым параметрам даже превосходит то, что было у Иэна)
Кандидаты на запуск:
Главный вопрос: какая в этом мотивация?
Прежде чем погружаться в технические дебри, я решил посчитать, имеет ли эта затея экономический смысл
Окупаемость железа
- Аренда схожего по характеристикам облачного CPU-сервера – ≈ 5 300 ₽/мес
- Покупка Orange Pi 5 Pro – ≈ 12 000 ₽
- Разделив, получаем ≈ 2.3 месяца до полной окупаемости оборудования
Дополнительные затраты
Конечно, в расчёт не вошла стоимость моего времени на настройку. Но для энтузиаста это скорее удовольствие, а потребление энергии устройством (≈ 6–10 Вт под нагрузкой) сравнимо с ежемесячным счетом за лампочку, в то время как облачные серверы обходятся в сотни рублей за час работы.
Экономия на API-токенах
А вот здесь все не так однозначно. Если вам нужно лишь изредка обращаться к модели, использование API через облако может быть очень дешевым. Например, для редких задач вызовы самой доступной русскоязычной модели обошлись бы примерно в 0,02 ₽ за 1 000 000 токенов. Очевидно, что покупать отдельное устройство из-за такой низкой цены токена бессмысленно.
Зачем это нужно в глобальном смысле?
Экономия - это приятно, но потенциал локальных моделей гораздо шире. Вы думаете, успехи Китая в роботизации - это шутки? Локальные LLM играют в этом ключевую роль. Робот на производстве или дрон-курьер не могут зависеть от стабильности интернет-соединения с дата-центром. Им нужна автономия
Перенос AI на устройства дает:
Что дальше?
Я пока только приступил к тестам и в ближайших планах развернуть Frida и Gemma 3 270m на своем Orange Pi. Очень интересно, какие результаты удастся получить и насколько они будут близки к показателям на Raspberry Pi
#hardware
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥4❤2👀1 1 1
Мир IT тесен, а Machine Learning - ещё теснее. Я трижды переходил между крупными IT-компаниями, и каждый раз среди коллег попадались знакомые - будь то со студенчества или с предыдущих мест работы
Авторы ML-каналов знакомы друг с другом едва ли не так же хорошо, как и коллеги в офисе
В папке - подборка крутых ребят, за которыми точно стоит следить. Каждый из них создаёт топовый ML-контент, а вместе они дают широкий спектр взглядов на нашу интересную индустрию
(много ML ребят тут)🐸
Отдельно выделю тех, с кем у меня схожий профиль и кто делится полезными советами и практиками в области машинного обучения
🔶 канал Андрея
Классно рассказал, как он собеседовал стажеров к себе в команду - можно найти инсайты для себя
🔶 канал Димы
Круто и наглядно объяснил процесс обучения LLM
🔶 канал Саши
Делал крутую публикацию на тему хаков при DS собеседовании, полезно
🔶 канал Юры
Делится разборами промышленного домена ML - вот, например, как применяется ML в диагностировании двигателей
Авторы ML-каналов знакомы друг с другом едва ли не так же хорошо, как и коллеги в офисе
В папке - подборка крутых ребят, за которыми точно стоит следить. Каждый из них создаёт топовый ML-контент, а вместе они дают широкий спектр взглядов на нашу интересную индустрию
(много ML ребят тут)
Отдельно выделю тех, с кем у меня схожий профиль и кто делится полезными советами и практиками в области машинного обучения
Классно рассказал, как он собеседовал стажеров к себе в команду - можно найти инсайты для себя
Круто и наглядно объяснил процесс обучения LLM
Делал крутую публикацию на тему хаков при DS собеседовании, полезно
Делится разборами промышленного домена ML - вот, например, как применяется ML в диагностировании двигателей
Please open Telegram to view this post
VIEW IN TELEGRAM
Спонсор вайба на выходных - Илон Маск, а с меня - свежий лайфхак для vibe-кодинга
Начну сразу с главного: два дня тестирую новую Grok Code Fast 1 (xAI), которую сейчас бесплатно раздают в Cursor (аж до 2 сентября, вы тоже успеете потестировать), но все таки, пока что личный фаворит - это Claude 4 Sonnet
Grok Code Fast 1 генерирует код с какой-то нечеловеческой скоростью (авторы заявляют 160 tokens per second). Я с ним за час набросал ядро сложного мультимодального RAG-поиска. А потом пришло время все это собирать воедино с основным сервисом. И пошли проблемы. Ассистент, пытаясь исправить одну ошибку, создавал три новых. Думаю эта ситуация знакома многим
И вот мой лайфхак, который спасает 90% времени и нервов - это тесты с подробными логами. Это ваш единственный объективный критерий того, что все работает как надо
Этот подход можно разбить на две части
Допустим, мы только что собрали мультимодальный RAG-поиск. Мой промпт будет выглядеть так (обычно пишу на английском - субъективно работает лучше и дешевле ):
🟡 Пишем тесты:
Обычно в момент написания все тесты проходят без проблем, но это только пока мы не насоздавали еще десятки зависимостей
🟡 А если зависимости все ломают, то дебажим при помощи тестов:
И это отлично работает! Особенно когда приходится переключаться между чатами с потерей контекста
Что касается моих впечатлений от Grok Code Fast 1 - модель быстрая, но сыровата, хотя метрики на SWE bench могут впечатлить. Для большинства практических задач связка Claude 4 Sonnet с описанной выше методологией пока остается непревзойденной. Я потратил час на написание фичи с Grok, а потом еще 30 минут дебажил результат с помощью Claude и тестов..
Всем вайбовых выходных!
💃 #vibe_coding@ml_maxim
Начну сразу с главного: два дня тестирую новую Grok Code Fast 1 (xAI), которую сейчас бесплатно раздают в Cursor (аж до 2 сентября, вы тоже успеете потестировать), но все таки, пока что личный фаворит - это Claude 4 Sonnet
Grok Code Fast 1 генерирует код с какой-то нечеловеческой скоростью (авторы заявляют 160 tokens per second). Я с ним за час набросал ядро сложного мультимодального RAG-поиска. А потом пришло время все это собирать воедино с основным сервисом. И пошли проблемы. Ассистент, пытаясь исправить одну ошибку, создавал три новых. Думаю эта ситуация знакома многим
И вот мой лайфхак, который спасает 90% времени и нервов - это тесты с подробными логами. Это ваш единственный объективный критерий того, что все работает как надо
Этот подход можно разбить на две части
Допустим, мы только что собрали мультимодальный RAG-поиск. Мой промпт будет выглядеть так (
Here is the python module with multi-modal RAG logic [code]. Your job is write an extensive tests for it using pytest. I need at least 20 tests covering huge bunch of cases: from file uploads to API responses and edge cases like empty inputs and hard cases with different input combinations.
Обычно в момент написания все тесты проходят без проблем, но это только пока мы не насоздавали еще десятки зависимостей
Okay, look. Here is the output of the tests we wrote before. [вставляю лог с ошибками]. 4 / 20 tests failed. Your changes broke the critical functionality. Your one and only goal right now is to fix the code so that all 20 tests pass again. start fixing all failed tests.
И это отлично работает! Особенно когда приходится переключаться между чатами с потерей контекста
Что касается моих впечатлений от Grok Code Fast 1 - модель быстрая, но сыровата, хотя метрики на SWE bench могут впечатлить. Для большинства практических задач связка Claude 4 Sonnet с описанной выше методологией пока остается непревзойденной. Я потратил час на написание фичи с Grok, а потом еще 30 минут дебажил результат с помощью Claude и тестов..
Всем вайбовых выходных!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3❤2 2
Когда уже сделают tool по картам для ai-агентов
Гонял в отпуск и вспоминал, как я планировал его в perplexity. У их агента много различных инструментов, но мне лично не хватило одного очень важного - чтобы у агента был инструмент работы с картами
Подумал и набросал небольшой proof of concept такого тула для ai агента. Все подробности в статье на habr🍿
Такого функционала очень не хватает Яндекс картам или Циану, каким бы удобным сразу стал поиск квартиры, да?
Кстати, в отпуске занимался чтением великой доменной литературы, и передаю привет автору
ПС: книгу пока не подписал, но это пока🚨
Гонял в отпуск и вспоминал, как я планировал его в perplexity. У их агента много различных инструментов, но мне лично не хватило одного очень важного - чтобы у агента был инструмент работы с картами
Подумал и набросал небольшой proof of concept такого тула для ai агента. Все подробности в статье на habr
Такого функционала очень не хватает Яндекс картам или Циану, каким бы удобным сразу стал поиск квартиры, да?
Кстати, в отпуске занимался чтением великой доменной литературы, и передаю привет автору
ПС: книгу пока не подписал, но это пока
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4❤2 1