- Telegram Web

AI Projects

Я с Claude и Gemini сделал анализ реверсный инжиниринг по исходному коду Module Agentic Planner (MAP) из статьи на Nature, она есть и на arXiv. На деле вес статье придает, что это разработка Microsoft Research в сотрудничестве с Princeton University.

Что нового удалось понять. Для начала важный момент, что MAP использует данные нейрофизиологии в своей концепции о выявленных отдельных областях коры головного мозга человека о планировании сложных задач и эвристиками пытается это повторить.

Существенный момент, что исследователи также пришли к выводу, что агент планирования должен манипулировать belief state о котором я постоянно пишу и без поддержки этого понятия ИИ решения часто мусорные.

Сама по себе реализация довольно простая и довольно легко повторяется промптингом с belief state.

1. Сначала делаем предварительный план и начальный belief state
2. Запрашиваем у агента варианты ходов дальше от текущего belief state
3. Оцениваем последовательно последствия каждого хода.
4. Оцениваем как в PCAM близость достижения цели
5. Рекурсивно так спускаемся на N max шагов в глубь дерева возможных планов.
6. Находим самый перспективный план относительно цели
7. Агент делает ход. Обновляем belief state, обновляем план, смотрим достигли ли целей.

Самое важное, что Microsoft показал, что критический момент управления планированием ИИ агента это сжатие контекста до этого в belief state, а также постоянный alignment на цель как в PCAM.

Простота реализации метода и доказанная на тестах эффективность очень вероятно сделают подход популярным в кастомных модификациях

https://arxiv.org/pdf/2310.00194

🔥14🤯5🎉2🤩2😍1

867 viewsVladimir Ivanov, edited 08:00

AI Projects

Обновился рейтинг суперкомпьютеров. Туда правда не входят суперкомпьютеры Илона Маска и Oracle, т.к. они занимаются только квантированными FP8-FP16 вычислениями. Просто по PFlop они примерно в 2 раза мощнее лидеров рейтинга типа Jupiter Booster (суперкомпьютер ЕС). Я убрал из списка военные суперкомпьютеры не связанные с ИИ, они официально занятый "погодой", а на практике заменяют ядерные испытания на симуляции, но это другая тема.

Важный тут момент, где мы-то находимся и что вообще может тот же Сбербанк? Его Neo упал на 125 место и он примерно в 20-50 раз слабее топовых суперкомпьютеров в ИИ.

У меня была тут горячая дискуссия с ребятами из Сбера, которые уверяли меня, что не делали из Qwen дистилляцию при создании GigaChat, но это выглядит неубедительно.

Имея такое слабое оборудование, ты можешь создать более-менее конкурентный LLM только дистилляцией, т.к. это позволяет сократить примерно в 10 раз мощности на обучении.

Скорее всего GigaChat остается оригинальной LLM, но судя и по похожим тестам на Qwen он реально получен дистиллированние его. Проблема в том, что это не настоящий reinforce learning и такой ИИ просто реагирует на текстовые паттерны языка, но плохо моделирует саму семантику. Дистиллированные модели всегда хорошо проходят тесты, т.к. собственно их датасеты и учили на дистилляции. У Qwen его SLM даже Code Forces выбивают мастерского уровня, но кто-то рискнет делать код на 4B модели?

На мой взгляд, чем дольше Сбер не будет признавать как и Яндекс поражение в LLM гонке, тем хуже нам всем. Просто лучше иметь Qwen с переклеенной этикеткой как у Яндекса, чем намного более низкого качества ИИ через просто зубрешку ответов китайца.

👍20💯7🎉1🤩1🙏1😍1🏆1🤗1

933 viewsVladimir Ivanov, edited 12:03

AI Projects

Спасибо коллегам из чата. Подкинули ссылку с обзором бесплатных или очень дешевых ИИ.
Включая спецпредложения вендоров или как не получить от того же Google большие счета за "бесплатный" API.

Кто что пробовал из этого, пишите в комментах. В чате есть пользователи "зайки" (Z.ai), предложений Cerebras и др.

Делимся опытом в комментах.

https://gist.github.com/mcowger/892fb83ca3bbaf4cdc7a9f2d7c45b081

Gist

Free and Low Cost Inference

Free and Low Cost Inference. GitHub Gist: instantly share code, notes, and snippets.

🔥14❤2

827 viewsVladimir Ivanov, 08:41

AI Projects

В части феерической скорости вывода Qwen Coder в 2000 токенов в секунду в Cerebras. Это не просто "еще один хостер". Это конкурент Nvidia, который производит мостроподобного размера чипы, но поскольку им не нужно обмениваться информацией в узлах кластера по сети, то такой чип минимум на inference показывает преимущество над традиционными GPU примерно в 7000 раз по скорости обмена в памяти.

Компания вполне жизнеспособная и недавно привлекла $1,1 миллиарда долларов инвестиций при оценке $8 миллиардов. Хотя это выглядит нишевым игроком, но достаточно для существования компании.

Вероятно бы стартап не выжил в конкуренции с Nvidia, если не нашел себе хорошего клиента как Пентагон.

На Cerbras работает новая система Digital RF Battlespace Emulator (DRBE). Основная задача такого "эмулятора" на самом деле с помощью мощного ИИ прорваться сквозь шум современных РЭБ систем. Деталей проекта не очень много, но за ваш бесплатный Qwen платит Дядя Сэм. 😎

https://www.businesswire.com/news/home/20250401398990/en/DARPA-Selects-Cerebras-to-Deliver-Next-Generation-Real-Time-Compute-Platform-for-Advanced-Military-and-Commercial-Applications

🔥10🤯4✍2👍1

807 viewsVladimir Ivanov, edited 09:18

AI Projects

Насчет "зайки". Судя по тестам GLM-4.6 вполне хороший ИИ. Для фиксов багов вполне жизнеспособен. На самой "зайке" подписка всего $3 в месяц.

На Open Router доступна бесплатно как "GLM 4.5 Air (free)", но работает в 4 раза медленней Grok и контекст меньше, поэтому популярность невелика.

https://z.ai/subscribe

👍5

805 viewsVladimir Ivanov, 09:49

AI Projects

Возможно многие пропустили исследование Open Router, которое опровергает упорные мифы ряда коллег, что "ИИ вызывают инструменты нестабильно". Текущий уровень точности скорее 99%+

Реально рынок ИИ агентов на 70% контролируется Claude в премиальных решениях и Gemini Flash в средних и малых по данным Open Router. Остальные игроки имеют нишевое значение.

https://openrouter.ai/announcements/tool-calling-accuracy

✍4🔥3

1.4K viewsVladimir Ivanov, 10:13

AI Projects

Cline опубликовал стастистику успеха применения diff патчей разными ИИ на базе из миллионов правок кода. Аккуратнее всего патчи делает Claude и Grok, за ними идёт "зайка" GLM 4.5

Однако эта статистика показывает насколько серьезная проблема для ИИ даже не код писать, а правильно оформлять патчи. В случае Chat GPT вообще 8% ошибочных патчей. Конечно значительная часть ошибок покрывается автокоррецией ИИ и вы даже не видите это, но это если система патчера может понять, что это ошибка.

Нейросети патчеры как Morph или его аналог в Cursor снижают проблему, но там все равно 2% ошибок.

Реальное решение только семантические разметки кода уникальными якорями как в GRACE и специальный промпт для ИИ агента типа Kilo Code, что бы ИИ знал как цепляться за якоря.

Да даже при нейросетке патчере за якоря ей цепляться надёжнее.

Всегда учитывайте, что править код для ИИ может быть даже сложнее, чем его писать. Понятие сложности для ИИ и людей разное

🔥9👍6

784 viewsVladimir Ivanov, edited 17:51

AI Projects

1:00

This media is not supported in your browser

VIEW IN TELEGRAM

Кто сказал, что AI Studio игрушка для разработки Web фронтэндов?

Вы просто не умеете его готовить

🔥14

736 viewsVladimir Ivanov, edited 18:03

AI Projects

Не все читали вероятно мою публикацию о том как я участвовал в разработке Microsoft Project. Около 20 миллионов пользователей только десктопного продукта, но еще около 5 миллионов человек пользовались и различными облачными решениями по управлению задачами и проектами. Это как бы не опыт нескольких зведочек на GitHub как у некоторых юношей.

Но я бы отметил очень важный еще момент в управлении Сообществами, что важен "вендорский контроль". В случае того же Microsoft Project было много "дутых гениев", кто меня давно читают и обучались по моим видео, знают истории вопроса, как многие обивали пороги MS, чтобы получить также MVP по продукту, но это не получалось.

Дело в том, что Microsoft имеет очень мощную систему инсайдерского контроля Сообществ через собственных менеджеров программ и "who is who" им понятно, поэтому они не считали просто полезным продукту каких-то деятелей. Этого довольно не хватает сейчас вендорам ИИ, чтобы также указывать какие эксперты авторизованные в методиках у них, а какие нет. Да даже возьмем тот же Сбербанк, его политика brand protection с тем же Giga Chat непонятная. Я делал внедрение в ING BANK примерно такой же капитализации, но там если бы появились "ребята из ING BANK" с собственной PR-политикой отдельной от банка, но их бы сразу же уволили, причем это не гипотеза, а условие трудового и подрядного контракта с банком. Если даже Сбербанк считает, что смог сделать LLM, то должен через пресс-релиз, а не через "Пашу или Мишу", указывать на статусных экспертов и подрядчиков.

Все же ИИ сфера в России в части корпоративной культуры в зачаточном состоянии.

https://vk.com/@turboplanner-za-kulisami-microsoft-tainye-elitnye-partnerskie-programmy-i

За кулисами Microsoft: тайные элитные партнерские программы и ИИ-трансформация

Этот рассказ взгляд изнутри Microsoft о том как на протяжении нескольких лет я участвовал в разработке трех версий Microsoft Project и ег..

👍15✍4👏4

753 viewsVladimir Ivanov, edited 18:20

AI Projects

Думаю, что все видели палатки в которых спали прямо в офисе разработчики Grok перед лончем Grok 4, но не все видели, что организатор аврала особых условий себе не искал.

Я не большой поклонник работы с overtime как менеджер, но важный момент что, если ты вводишь жёсткие условия как руководитель, то это и для тебя. Маск тут вполне честен. Все кто на него работают знают на что идут. Несколько месяцев в таком режиме проработать можно, но Маск реальный супермен. Он же так работает постоянно.

🤔13🔥8

725 viewsVladimir Ivanov, 21:09

AI Projects

Набирает обороты новый тренд в reinforcement learning по защите LLM от галлюцинаций. Модели предлагают обучать ответу: "я не знаю".

Проблема в том, что максимальные галлюцинации у LLM с небольшим количеством параметров, где факты слишком сжатые и при инференсе модели вынуждены придумывать слишком много деталей. Если сделать такое обучение, то тот же SLM будет постоянно в Незнайку играть.

Скорее нужно чаще в промптинге работать через понятие уверенности модели в ответе. Если обычные CoT методики агентов наивные, то во FLEX я применяю оценку уверенности модели объективную по логитам.

Однако интересное наблюдение, что если брать уверенность того же Qwen 0,6b в ответе, то через рефлексию он всего на 10% отклоняется от вероятности логита. Это довольно неожиданный результат, что рефлексия ИИ в части его уверенности в ответе надёжнее, чем кажется. Надо просто правильно спрашивать промптом.

https://www.arxiv.org/abs/2509.25760

arXiv.org

TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning

While large language models (LLMs) have demonstrated strong performance on factoid question answering, they are still prone to hallucination and untruthful responses, particularly when tasks...

❤10👍1

712 viewsVladimir Ivanov, 21:34

AI Projects

Джереми Ховард и Сильвен Гуггер, создатели Fastai, написали очень популярную книгу по обучению моделей ИИ для решения широкого спектра задач с помощью Fastai и PyTorch.

Они выложили всю книгу в формате Jupyter-блокнотов на Colab, где можно сразу запускать их код в облаке.

Я тоже использую Colab на обучении, когда рассказываю про анализ вероятности вызова Tools у SLM через логиты по методике FLEX.

https://course.fast.ai/Resources/book.html

Practical Deep Learning for Coders

Practical Deep Learning for Coders - The book

Learn Deep Learning with fastai and PyTorch, 2022

🔥7👍3🙏2

668 viewsVladimir Ivanov, edited 04:34

AI Projects

Народ уже прикалывается над легендарной фразой Claude, когда код не работает. :)

У Google Gemini обычно в случае застрявшего бага скорее шаблонная фраза для эмпативной поддержки в духе "Это последняя правка! Мы уже у цели!"

🤩10

682 viewsVladimir Ivanov, 04:38

AI Projects

Deutsche Bank в своем анализе по ВВП США отмечает, что расходы на ИИ перешли в фазу "too big to fail". Если бы не затраты на строительство новых ЦОД и исследований для ИИ, то США погрузились бы уже в рецессию.

Ранее для поддержания роста ВВП использовались странами расходы на строительство инфраструктуры, это был основной драйвер роста ВВП КНР, но перекос там привел к "городам призракам", где никто не живёт или дорогам в пустынях, где никто не ездит.

Расходы на ИИ стали настолько важны для экономики США, что их снижать нельзя без создания финансового кризиса

✍5👍3

703 viewsVladimir Ivanov, edited 05:04

AI Projects

MIT, Гарвард и Google опубликовали свое видение как управлять агентами с Tools.

Они пишут, что Tool-методики без создания ансамблей агентов устарели и предлагают подход специализированных под инструменты отдельных агентов, примерно как профессии у людей. В их фреймворке TUMIX штатно 15 агентов по специализации на задачи, плюс новые создаются динамически.

Про ансамблирование агентов как мировой тренд я пишу постоянно. Российские разработки тут сильно отстают от мирового уровня и застряли в районе CoT и structured output, когда мировой тренд на ансамбли агентов без жёстких планов, вместо них гайды и alignment на цели. Примерно такой же подход я и предлагаю в PCAM.

Об этом же пишет Microsoft Research в своей методике планирования агентов MAP, о которой можно почитать в моем канале.

https://arxiv.org/abs/2510.01279

arXiv.org

TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

While integrating tools like Code Interpreter and Search has significantly enhanced Large Language Model (LLM) reasoning in models like ChatGPT Agent and Gemini-Pro, practical guidance on optimal...

👍7🔥3❤2

696 viewsVladimir Ivanov, edited 05:17

AI Projects

Глава Amazon Джефф Бензос заявил, что не видит никакой проблемы даже в сценарии "пузыря ИИ", которым многие пугают.

Он отмечает, что основные расходы на ИИ в инфраструкту и исследования, эти активы никуда не пропадут даже если несколько ИИ игроков станут банкротами, а станут фундаментом развития экономики дальше. Как пример он приводит пузыри биотехнологий и дотокомов от которых остался фундамент современной медицины и инфраструктуры Интернет.

Интересный момент, что раньше в такой логике продвигались расходы на капитальное строительство, а теперь под инфраструктурой в мире понимаю не мост, а ЦОД, которым можно пользоваться с большей выгодой дальше.

https://www.bloomberg.com/news/articles/2025-10-03/bezos-says-ai-spending-boom-is-a-bubble-that-will-pay-off?embedded-checkout=true

Bloomberg.com

Bezos Says AI Spending Boom Is a Bubble That Will Pay Off

Amazon.com Inc. Chairman Jeff Bezos said that the spending on artificial intelligence resembles an “industrial bubble” that could lead to lost investment but will also make society better off.

❤6👍6

737 viewsVladimir Ivanov, 05:38

AI Projects

Пока в России агентские технологии живут в альтернативной Телеграм реальности, в мире научные работы по передовым методикам агентов льются как из рога изобилия.

Мягко говоря, довольно неожиданное подтверждение тестами принципов методологий управления цель-ориентированных агентов как мой PCAM или аналоги.

В чем неожиданность? Самый известный канадский Университет Британской Колумбии в Ванкувере опубликовал работу, которая доказывает, что представление о SLM как только о "попугаях паттернов" слишком упрощенное. Исследуя SLM как Qwen2.5-3B, Qwen2.5-7B, GPT-5-nano они создали агента на базе принципов Теории разума (Theory of Mind, ToM).

Агент строит через ToM моделирование оператора в понятиях:
- Убеждения (Beliefs): Представления о фактах или состоянии мира
- Желания (Desires): Цели или предпочтения
- Намерения (Intentions): Планы или действия, которые человек собирается предпринять

Исследователи установили даже удивительный факт, что SLM как Qwen 2.5 всего на 3B параметров получила буст 19% в достижении целей по использованию Tools и по извлечению знаний (RAG). Интересно, что на саму эмпатию (relationship) влияние моделирования оператора со стороны SLM было меньше.

Это доказывает, что цель-ориентированные методики управления агентами как PCAM совсем не исключительно для ниши LLM, а крайне эффективные для SLM. Возможно в сфере этой работы я смещу рекомендации по использованию FLEX на few shots к SLM меньше 3B параметров, т.к. надо сделать свои тесты.

Важный еще момент, что работа уже доказывает прямо, что если вы агенту не сообщили модель оператора как его профиль, то даже SLM деградирует как агент. В GRACE у меня уже включен профиль оператора в общие правила для Kilo Code и Gemini CLI, в Cursor еще не переносил. Однако важность user profile для ИИ агента теперь значительно повысилась в свете этой работы, ранее это были интуитивные наблюдения у меня, а тут уже доказательства.

https://www.arxiv.org/abs/2509.22887

🔥8❤5👍2🤯2

616 viewsVladimir Ivanov, 09:40

AI Projects

Правительство США по официальным данным Bureau of Economic Analysis (BEA) признало факт, что основной драйвер роста экономики США - это Искусственный Интеллект. Внутреннее потребление дало только 0,7% ВВП, а расходы на ЦОД и исследования для ИИ - 1,1% ВВП США

🔥4❤2

601 viewsVladimir Ivanov, 10:34

AI Projects

Сегодня день научного фейерверка. Google выпустил публикацию в которой показал невероятные способности даже не SLM, а скорее что-то вроде Nano LM по анализу кода. Они создали Gemma всего на 300 миллионов параметров, но со специальной моделью токенизации под код как T5Gemma и большим обучением по кодовой базе.

Их целью было научить такую мелкую LM оценивать потребление памяти и времени выполнения для кода на Питоне.

По предсказанию потребления памяти для Питона корреляция достигла 0.930, т.е. практически идеальная.
Для задержек задача была сложной, как изучение кода для Triton ядер на NVIDIA A6000, но тем не менее корреляционный коэффициент 0.516.

Ранее такие же эксперименты делали на более крупных нейросетях с корреляциями значительно меньше.

О чем это все говорит? Это говорит о том, что программный код людей имеет некоторую "скрытую простоту" как высокоуровневые архитектурные паттерны, которую понимают специально обученные нейросети. В случае LLM можно также ожидать, что ИИ может вроде бы делать парадоксальные вещи - не очень понимать как код работает в деталях, но удивительно точно предсказывать его результирующее поведение.

Как это практически применить? Я думаю, что тут нужны дополнительные эксперименты, но скорее всего если у ИИ спросить оценку кода, но не запрашивать как раз CoT и "рационализацию", то ИИ может удивительно точно оценить его в каких-то аспектах, просто учуяв паттерны решений, который мы сами еще не понимаем до конца, а ИИ смог установить.

Больше доверяйте выводам GPT без объяснений, как ни странно, но когда вопрос именно категоризации и оценок как тут, чем меньше ИИ думает словами, а больше внутри скрытого состояния, тем лучше оценка. Я уже публиковал работу в канале на этот счет и она явно перекликается с этой.

https://arxiv.org/abs/2509.26476

arXiv.org

Regression Language Models for Code

We study code-to-metric regression: predicting numeric outcomes of code executions, a challenging task due to the open-ended nature of programming languages. While prior methods have resorted to...

👍5🔥5❤4🤔1🤯1

610 viewsVladimir Ivanov, edited 10:58

AI Projects

Довольно символичная история. Когда идёт бурный рост на рынке, то открываются новые возможности.

16 летний подросток из Лондона привлек $1 миллион долларов финансирования за 7% стоимости своего стартапа Beem.

Когда ему было ещё 14 лет, он понял, что будущее за ИИ агентами, поэтому на ранних версиях Gemini собрал себе агента делать домашку в школе, т.к. был троешником и вряд ли бы закончил среднюю школу без своего бота. Потом у него возникла идея сделать персонального агента по работе с email и календарем.

Интересно, что вложили в него деньги South Park Commons, это один из ранних инвесторов Facebook, т.е. венчур очень опытный.

Дело даже не в возрасте, а в том, что в момент такого роста бизнеса ИИ у всех уникальные перспективы сделать карьеру или бизнес, что в обычной ситуации было бы маловероятно.

https://www.msn.com/en-gb/money/technology/london-boy-16-wins-1-million-silicon-valley-investment-for-his-ai-startup/ar-AA1yt1QT

MSN

London boy, 16, wins $1 million Silicon Valley investment for his AI startup

London boy, 16, wins $1 million Silicon Valley investment for his AI startup - Toby Brown has plans to launch his AI project Beem to the public within the next year

1🔥14🤯8

490 viewsVladimir Ivanov, 17:26

2025/10/04 21:53:42
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>