Mistral запустила AI-ассистента Le Chat на iOS и Android 🤖
Компания представила обновления для своего ассистента Le Chat, включая мобильное приложение для iOS и Android. За 14 дней после релиза Le Chat успели скачать один млн раз.
Приложение предлагает стандартный чат-интерфейс. Однако голосового режима в мобильной версии пока нет. Le Chat также поддерживает русский язык.
Mistral утверждает, что Le Chat работает на самых быстрых движках вывода, обеспечивая генерацию до 1 тыс. слов в секунду. Функция Flash Answers позволяет выдавать сверхбыстрые текстовые ответы, делая взаимодействие еще более эффективным. Компания также добавила интерпретатор кода, позволяющий выполнять анализ, моделирование и визуализацию данных, а также строить графики и решать сложные математические задачи.
Кроме того, в Le Chat теперь встроен веб-поиск с цитатами, а благодаря партнерству с AFP пользователи получают доступ к актуальным новостям.
Для тех, кто хочет расширенный функционал, появился платный тариф Pro. Он включает неограниченные запросы, полный доступ к веб-поиску, анализу данных и эксклюзивным новостям, а также возможность отключить сбор пользовательских данных.
Для генерации изображений используется Flux Ultra от Black Forest Labs — одна из ведущих генеративных моделей для изображений.
Le Chat можно развернуть на собственной инфраструктуре с кастомными моделями и UI, что делает его привлекательным для банков и оборонных организаций с высокими требованиями к безопасности.
В основе Le Chat лежат флагманские языковые модели Mistral, включая Mistral Large и Pixtral Large (мультимодальная модель).
Mistral Large 2 продемонстрировала высокие результаты на нескольких бенчмарках, особенно в области генерации кода и математики. В частности, на бенчмарке Massive Multitask Language Understanding (MMLU) модель достигла точности 84,0%. Pixtral Large построена на основе Mistral Large 2. По бенчмарке MathVista, которая оценивает сложные математические рассуждения по визуальным данным, модель достигает 69,4%.
Компания представила обновления для своего ассистента Le Chat, включая мобильное приложение для iOS и Android. За 14 дней после релиза Le Chat успели скачать один млн раз.
Приложение предлагает стандартный чат-интерфейс. Однако голосового режима в мобильной версии пока нет. Le Chat также поддерживает русский язык.
Mistral утверждает, что Le Chat работает на самых быстрых движках вывода, обеспечивая генерацию до 1 тыс. слов в секунду. Функция Flash Answers позволяет выдавать сверхбыстрые текстовые ответы, делая взаимодействие еще более эффективным. Компания также добавила интерпретатор кода, позволяющий выполнять анализ, моделирование и визуализацию данных, а также строить графики и решать сложные математические задачи.
Кроме того, в Le Chat теперь встроен веб-поиск с цитатами, а благодаря партнерству с AFP пользователи получают доступ к актуальным новостям.
Для тех, кто хочет расширенный функционал, появился платный тариф Pro. Он включает неограниченные запросы, полный доступ к веб-поиску, анализу данных и эксклюзивным новостям, а также возможность отключить сбор пользовательских данных.
Для генерации изображений используется Flux Ultra от Black Forest Labs — одна из ведущих генеративных моделей для изображений.
Le Chat можно развернуть на собственной инфраструктуре с кастомными моделями и UI, что делает его привлекательным для банков и оборонных организаций с высокими требованиями к безопасности.
В основе Le Chat лежат флагманские языковые модели Mistral, включая Mistral Large и Pixtral Large (мультимодальная модель).
Mistral Large 2 продемонстрировала высокие результаты на нескольких бенчмарках, особенно в области генерации кода и математики. В частности, на бенчмарке Massive Multitask Language Understanding (MMLU) модель достигла точности 84,0%. Pixtral Large построена на основе Mistral Large 2. По бенчмарке MathVista, которая оценивает сложные математические рассуждения по визуальным данным, модель достигает 69,4%.
Please open Telegram to view this post
VIEW IN TELEGRAM
Microsoft выпустил Magma, вышли новые версии моделей от OpenAI и Anthropic 🆕
Разберем сегодня три разработки, которые вышли в прошлом месяце и заинтересовали меня: гибридную модель от Anthropic, AI-агента от Microsoft и новую версию GPT.
1️⃣ Anthropic представил гибридную модель Claude 3.7 Sonnet
Недавно представленная Claude 3.7 Sonnet от Anthropic привлекла меня тем, что стала первой на рынке гибридной моделью рассуждения, которая предлагает возможность выбора между стандартным режимом и функцией размышления над ответом, при этом без необходимости переключения на иную версию Claude.
По результатам тестов — Claude 3.7 Sonnet показала впечатляющие результаты в бенчмарках. Например, в тесте SWE-bench модель набрала 62,3%, опередив o1, o3-mini и R1, у которых не более 49%.
Особенно интересно, как модель проявляет себя в творческих задачах. Оценка эксперта Business Insider Claude 3.7 Sonnet от Anthropic показала ее сильные стороны в этом направлении в задаче с составлением стихотворения.
Однако, Claude 3.7 уступила по скорости и точности в логических задачах. Она хуже o3-mini в бенчмарках AIME 2024 и MATH 500.
Одновременно с этим Anthropic запустил genAI-агента для программирования Claude Code в режиме исследовательского превью. Он пишет и редактирует код, пишет тесты, работает с GitHub и командной строкой, поясняя свои действия. В компании утверждают, что разработчики уже используют его.
Кроме того, гендиректор Anthropic Дарио Амодей заявил, что что в ближайшие 3-6 месяцев искусственный интеллект будет создавать 90% кода. Довольно смелое заявление, на мой взгляд. В системах МТС уже 8% строк программного кода пишется с помощью AI и этот процент будет неуклонно расти в ближайшем будущем. Но все же код, сгенерированный AI, еще неидеален: он может вносить уязвимости в приложения, вызывать сбои и подвержен галлюцинациям.
2️⃣ Microsoft создал AI-агента Magma для управления ПО и роботами
Magma — это многомодальная AI-модель, которая комбинирует вербальные, пространственные и исполнительные навыки для выполнения задач в цифровой и физической среде. Модель обучали на изображениях, видео с действиями людей, данных о роботах и пользовательских интерфейсах. Она формирует два типа маркеров: Set-of-Mark — для идентификации объектов, с которыми можно взаимодействовать, и Trace-of-Mark — для планирования действий.
Microsoft позиционирует Magma как шаг к агентному AI. Magma может использоваться для управления роботизированной рукой, а бот на базе Magma в ответ на вопрос о погоде открывает браузер, вводит запрос в поисковик, находит актуальные данные и отвечает на вопрос юзера.
Мне кажется, что с помощью Magma можно решить проблему интеграции AI в реальное производство: от заводских роботов до умных офисов. Однако, остаются вопросы о том, насколько это событие изменит индустрию или просто продолжит эволюцию языковых технологий.
3️⃣ OpenAI выпустила новую версию GPT-4.5
В официальном документе OpenAI прямо заявляет, что GPT-4.5 — вовсе не прорывная модель. Скорее всего, компания планирует оставить это звание для версии GPT-5, выпуск которой не за горами. Поэтому никаких рекордов по бенчмаркам здесь ждать не стоит, ее производительность ниже, чем у o1, o3-mini и Deep Research в большинстве тестов. При этом GPT-4.5 самая большая LLM OpenAI, превосходящая вычислительную эффективность GPT-4 более чем в 10 раз.
GPT-4.5 превосходит старые модели в распознавании паттернов и выявлении взаимосвязей. Также она стала более чувствительна к эмоциональному состоянию собеседника, адаптируя стиль общения в зависимости от настроения пользователя. По словам разработчиков, модель галлюцинирует значительно меньше, чем GPT-4o.
Очевидно, что релиз GPT-4.5 — это про эволюцию, а не революцию. Но он закрепляет важный тренд в развитии LLM: масштабирование данных уже не дает экспоненциального роста, нужен новый подход.
Разберем сегодня три разработки, которые вышли в прошлом месяце и заинтересовали меня: гибридную модель от Anthropic, AI-агента от Microsoft и новую версию GPT.
1️⃣ Anthropic представил гибридную модель Claude 3.7 Sonnet
Недавно представленная Claude 3.7 Sonnet от Anthropic привлекла меня тем, что стала первой на рынке гибридной моделью рассуждения, которая предлагает возможность выбора между стандартным режимом и функцией размышления над ответом, при этом без необходимости переключения на иную версию Claude.
По результатам тестов — Claude 3.7 Sonnet показала впечатляющие результаты в бенчмарках. Например, в тесте SWE-bench модель набрала 62,3%, опередив o1, o3-mini и R1, у которых не более 49%.
Особенно интересно, как модель проявляет себя в творческих задачах. Оценка эксперта Business Insider Claude 3.7 Sonnet от Anthropic показала ее сильные стороны в этом направлении в задаче с составлением стихотворения.
Однако, Claude 3.7 уступила по скорости и точности в логических задачах. Она хуже o3-mini в бенчмарках AIME 2024 и MATH 500.
Одновременно с этим Anthropic запустил genAI-агента для программирования Claude Code в режиме исследовательского превью. Он пишет и редактирует код, пишет тесты, работает с GitHub и командной строкой, поясняя свои действия. В компании утверждают, что разработчики уже используют его.
Кроме того, гендиректор Anthropic Дарио Амодей заявил, что что в ближайшие 3-6 месяцев искусственный интеллект будет создавать 90% кода. Довольно смелое заявление, на мой взгляд. В системах МТС уже 8% строк программного кода пишется с помощью AI и этот процент будет неуклонно расти в ближайшем будущем. Но все же код, сгенерированный AI, еще неидеален: он может вносить уязвимости в приложения, вызывать сбои и подвержен галлюцинациям.
2️⃣ Microsoft создал AI-агента Magma для управления ПО и роботами
Magma — это многомодальная AI-модель, которая комбинирует вербальные, пространственные и исполнительные навыки для выполнения задач в цифровой и физической среде. Модель обучали на изображениях, видео с действиями людей, данных о роботах и пользовательских интерфейсах. Она формирует два типа маркеров: Set-of-Mark — для идентификации объектов, с которыми можно взаимодействовать, и Trace-of-Mark — для планирования действий.
Microsoft позиционирует Magma как шаг к агентному AI. Magma может использоваться для управления роботизированной рукой, а бот на базе Magma в ответ на вопрос о погоде открывает браузер, вводит запрос в поисковик, находит актуальные данные и отвечает на вопрос юзера.
Мне кажется, что с помощью Magma можно решить проблему интеграции AI в реальное производство: от заводских роботов до умных офисов. Однако, остаются вопросы о том, насколько это событие изменит индустрию или просто продолжит эволюцию языковых технологий.
3️⃣ OpenAI выпустила новую версию GPT-4.5
В официальном документе OpenAI прямо заявляет, что GPT-4.5 — вовсе не прорывная модель. Скорее всего, компания планирует оставить это звание для версии GPT-5, выпуск которой не за горами. Поэтому никаких рекордов по бенчмаркам здесь ждать не стоит, ее производительность ниже, чем у o1, o3-mini и Deep Research в большинстве тестов. При этом GPT-4.5 самая большая LLM OpenAI, превосходящая вычислительную эффективность GPT-4 более чем в 10 раз.
GPT-4.5 превосходит старые модели в распознавании паттернов и выявлении взаимосвязей. Также она стала более чувствительна к эмоциональному состоянию собеседника, адаптируя стиль общения в зависимости от настроения пользователя. По словам разработчиков, модель галлюцинирует значительно меньше, чем GPT-4o.
Очевидно, что релиз GPT-4.5 — это про эволюцию, а не революцию. Но он закрепляет важный тренд в развитии LLM: масштабирование данных уже не дает экспоненциального роста, нужен новый подход.
OpenAI пытается продлить жизнь человека с помощью AI 🔬
OpenAI впервые применила свои разработки в биотехнологиях. Их новая AI-модель GPT-4b micro может предлагать способы модификации белков, способных эффективно превращать обычные клетки в стволовые. Этот подход может значительно ускорить исследования в области регенеративной медицины и продления жизни.
Стартап по исследованиям долголетия Retro Biosciences год назад предложил OpenAI сотрудничество в оптимизации Yamanaka-факторов — белков, способных возвращать клетки в стволовое состояние.
GPT-4b micro — это пример малой языковой модели, которая работает с узкоспециализированным набором данных. Она была обучена на генетических последовательностях белков разных видов и взаимодействиях между ними.
Модель использует тактику few-shot prompting, при которой исследователи предоставляют примеры правильных решений, а AI затем генерирует свои предложения. Этот AI-подход отличается от удостоенной Нобелевской премии модели AlphaFold от Google.
OpenAI впервые применила свои разработки в биотехнологиях. Их новая AI-модель GPT-4b micro может предлагать способы модификации белков, способных эффективно превращать обычные клетки в стволовые. Этот подход может значительно ускорить исследования в области регенеративной медицины и продления жизни.
Стартап по исследованиям долголетия Retro Biosciences год назад предложил OpenAI сотрудничество в оптимизации Yamanaka-факторов — белков, способных возвращать клетки в стволовое состояние.
GPT-4b micro — это пример малой языковой модели, которая работает с узкоспециализированным набором данных. Она была обучена на генетических последовательностях белков разных видов и взаимодействиях между ними.
Модель использует тактику few-shot prompting, при которой исследователи предоставляют примеры правильных решений, а AI затем генерирует свои предложения. Этот AI-подход отличается от удостоенной Нобелевской премии модели AlphaFold от Google.
Please open Telegram to view this post
VIEW IN TELEGRAM
В Китае выпустили AI-агента, способного работать без постоянных запросов 🇨🇳
Тренд на бурный рост моделей с агентскими возможностями активно проявляется, подтверждая прогнозы исследователей. В начале марта был представлен AI-агент Manus от стартапа Butterfly Effect. В отличие от моделей GPT-4 или Google Gemini, которые требуют регулярных пользовательских запросов для работы, Manus не просто реагирует на инструкции, но может самостоятельно планировать и выполнять задачи с минимальным участием человека.
Manus не был разработан полностью с нуля. Он использует комбинацию существующих и доработанных моделей AI, включая Claude 3.5 Sonnet от Anthropic и Qwen от Alibaba. Модель интегрирована с 29 инструментами и ПО с открытым исходным кодом, что позволяет работать с API, запускать скрипты и искать информацию в интернете.
Manus использует многослойную архитектуру агентов, где центральный исполнительный агент координирует работу субагентов, которые занимаются более узкими задачами. Manus функционирует через структурированный агентский цикл, итеративно обрабатывая задачи шаг за шагом. Каждый сеанс следует этому процессу:
1. Анализ событий: понимает запросы пользователей и текущее состояние задачи.
2. Выбор инструментов: выбирает подходящий инструмент или вызов API для следующего шага.
3. Выполнение команд: запуск сценариев оболочки, веб-автоматизации или обработки данных в «песочнице» Linux.
4. Итерация: совершенствует свои действия на основе новых данных, повторяя цикл до тех пор, пока задача не будет завершена.
5. Результаты: отправляет структурированные выходные данные пользователю в виде сообщений, отчетов или развернутых приложений.
6. Ожидания: переходит в состояние ожидания до тех пор, пока не потребуется дальнейшее вмешательство пользователя.
Manus AI продемонстрировал исключительную производительность на бенчмарке GAIA (Generalized AI Agent). Система превзошла предыдущие современные модели, включая систему Deep Research OpenAI, на всех уровнях сложности. Manus AI достиг результатов в 86,5%, 70,1% и 57,7% для базовых, промежуточных и сложных задач соответственно, по сравнению с результатами OpenAI в 74,3%, 69,1% и 47,6%.
Хотя результаты выглядят многообещающе, в реальных условиях производительность может отличаться от контролируемых тестов. Это уже подтверждается отзывами о работе с Manus.
Соучредитель стартапа AI Pleias Александр Дориа отметил, что он столкнулся с сообщениями об ошибках и бесконечными циклами во время тестирования Manus. Другие пользователи X указывают на то, что Manus допускает ошибки в фактических вопросах и часто пропускает информацию, которую легко найти в сети.
На данный момент модель доступна только по приглашению. Для тех, кто не хочет ждать инвайт кода, разработчики из MetaGPT создали OpenManus. Это опенсорсная альтернатива Manus AI. Она доступна на GitHub и помогает выполнять задачи автономно, как и Manus AI.
Тренд на бурный рост моделей с агентскими возможностями активно проявляется, подтверждая прогнозы исследователей. В начале марта был представлен AI-агент Manus от стартапа Butterfly Effect. В отличие от моделей GPT-4 или Google Gemini, которые требуют регулярных пользовательских запросов для работы, Manus не просто реагирует на инструкции, но может самостоятельно планировать и выполнять задачи с минимальным участием человека.
Manus не был разработан полностью с нуля. Он использует комбинацию существующих и доработанных моделей AI, включая Claude 3.5 Sonnet от Anthropic и Qwen от Alibaba. Модель интегрирована с 29 инструментами и ПО с открытым исходным кодом, что позволяет работать с API, запускать скрипты и искать информацию в интернете.
Manus использует многослойную архитектуру агентов, где центральный исполнительный агент координирует работу субагентов, которые занимаются более узкими задачами. Manus функционирует через структурированный агентский цикл, итеративно обрабатывая задачи шаг за шагом. Каждый сеанс следует этому процессу:
1. Анализ событий: понимает запросы пользователей и текущее состояние задачи.
2. Выбор инструментов: выбирает подходящий инструмент или вызов API для следующего шага.
3. Выполнение команд: запуск сценариев оболочки, веб-автоматизации или обработки данных в «песочнице» Linux.
4. Итерация: совершенствует свои действия на основе новых данных, повторяя цикл до тех пор, пока задача не будет завершена.
5. Результаты: отправляет структурированные выходные данные пользователю в виде сообщений, отчетов или развернутых приложений.
6. Ожидания: переходит в состояние ожидания до тех пор, пока не потребуется дальнейшее вмешательство пользователя.
Manus AI продемонстрировал исключительную производительность на бенчмарке GAIA (Generalized AI Agent). Система превзошла предыдущие современные модели, включая систему Deep Research OpenAI, на всех уровнях сложности. Manus AI достиг результатов в 86,5%, 70,1% и 57,7% для базовых, промежуточных и сложных задач соответственно, по сравнению с результатами OpenAI в 74,3%, 69,1% и 47,6%.
Хотя результаты выглядят многообещающе, в реальных условиях производительность может отличаться от контролируемых тестов. Это уже подтверждается отзывами о работе с Manus.
Соучредитель стартапа AI Pleias Александр Дориа отметил, что он столкнулся с сообщениями об ошибках и бесконечными циклами во время тестирования Manus. Другие пользователи X указывают на то, что Manus допускает ошибки в фактических вопросах и часто пропускает информацию, которую легко найти в сети.
На данный момент модель доступна только по приглашению. Для тех, кто не хочет ждать инвайт кода, разработчики из MetaGPT создали OpenManus. Это опенсорсная альтернатива Manus AI. Она доступна на GitHub и помогает выполнять задачи автономно, как и Manus AI.
Как AI меняет процесс разработки веб-приложений 🖥
AI-инструменты снижают порог входа для пользователей без технических навыков и меняет саму парадигму создания веб-приложений, перенося фокус с кода на логику продукта. Разберем, как такие инструменты помогают начинающим и опытным разработчикам, какие у них есть ограничения и что ждет эту технологию в будущем.
Бум AI-сервисов для веб-разработки
Многие пользователи создают веб-приложения и сайты с помощью таких AI-инструментов, как Bolt, Lovable и v0. Эти сервисы позволяют разрабатывать динамические продукты и даже монетизировать их без необходимости писать код. Например, Bolt достиг показателя годового дохода в $20 млн, а Lovable — $10 млн всего за два месяца после начала монетизации.
Рынок генеративного AI в разработке программного обеспечения демонстрирует значительный рост, который продолжится в ближайшие годы.
Как AI-инструменты работают
Если раньше стек технологий подразумевал использование различных библиотек и фреймворков, то сейчас пользователи работают на уровне естественного языка и графического интерфейса. При этом некоторые сервисы, такие как v0, позволяют экспортировать сгенерированный код.
AI-продукты подразделяются на два ключевых направления:
🟢 Генерация статических сайтов — подходят для создания информационных страниц, лендингов и простых веб-сайтов (Bolt, Lovable, Wix AI);
🟢 Генерация динамических веб-приложений — позволяет разрабатывать интерактивные сервисы с авторизацией, базами данных и сложной логикой (v0, Replit Agent, Supabase).
AI-решения включают в себя три ключевых компонента: генерацию интерфейсов, генерацию кода и AI-управляемый хостинг. Системы, такие как Uizard, могут преобразовывать эскизы в рабочие HTML/CSS-макеты. Модели типа Codex от OpenAI или GitHub Copilot помогают в написании сложной логики.
Сервисы Vercel AI или Cloudflare AI Workers оптимизируют развертывание и масштабирование приложений. Инструмент Inngest позволяет управлять обработкой запросов и взаимодействием с внешними API, создавая event-driven архитектуры для сложных веб-приложений.
Эволюция фронтенд-разработки помогает AI-инструментам
Современные браузеры поддерживают сложные JavaScript-фреймворки и нативные API, что значительно расширяет возможности клиентской стороны.
Бизнес-логика приложений все чаще переносится на клиентскую сторону, что позволяет улучшить производительность и уменьшить нагрузку на сервер. Эти изменения облегчают интеграцию AI-решений, таких как обработка данных в реальном времени, персонализация контента и автоматизация пользовательского опыта.
Одним из ключевых применений AI в веб-разработке также стало быстрое прототипирование. Это позволяет создавать базовые версии веб-приложений, которые затем могут быть доработаны разработчиками, как, например, уже упомянутая Uizard.
Ошибки и проблемы интеграции
Несмотря на преимущества, AI-инструменты не лишены недостатков:
🟢 Подключение баз данных, платежных систем и API требует дополнительных усилий, особенно для пользователей без технического опыта;
🟢 Ошибки и логические несоответствия приходится исправлять вручную;
🟢 Некоторые сервисы ограничены в размере создаваемого кода, что может привести к проблемам при разработке крупных проектов;
🟢 Существуют опасности утечек и несанкционированного доступа к данным;
🟢 Нет инструментов тестирования, отладки и аналитики для отслеживания производительности сервисов.
Будущее за автоматизацией и персонализацией
Развитие AI-инструментов в веб-разработке ожидается в нескольких направлениях:
🟢 Более точная персонализация и адаптация под разные группы пользователей;
🟢 Глубокая интеграция с корпоративными системами;
🟢 Улучшенная интеграция AI-решений поможет проще подключаться к популярным сервисам вроде Stripe и других;
🟢 AI также может стать помощником не только в генерации кода, но и в его исправлении.
Развитие AI приведет к снижению затрат на типовые задачи, ускорению прототипирования и упрощению поддержки кода. Однако для сложных проектов традиционные методы останутся востребованными, пока AI-инструменты не достигнут высокой точности и гибкости.
AI-инструменты снижают порог входа для пользователей без технических навыков и меняет саму парадигму создания веб-приложений, перенося фокус с кода на логику продукта. Разберем, как такие инструменты помогают начинающим и опытным разработчикам, какие у них есть ограничения и что ждет эту технологию в будущем.
Бум AI-сервисов для веб-разработки
Многие пользователи создают веб-приложения и сайты с помощью таких AI-инструментов, как Bolt, Lovable и v0. Эти сервисы позволяют разрабатывать динамические продукты и даже монетизировать их без необходимости писать код. Например, Bolt достиг показателя годового дохода в $20 млн, а Lovable — $10 млн всего за два месяца после начала монетизации.
Рынок генеративного AI в разработке программного обеспечения демонстрирует значительный рост, который продолжится в ближайшие годы.
Как AI-инструменты работают
Если раньше стек технологий подразумевал использование различных библиотек и фреймворков, то сейчас пользователи работают на уровне естественного языка и графического интерфейса. При этом некоторые сервисы, такие как v0, позволяют экспортировать сгенерированный код.
AI-продукты подразделяются на два ключевых направления:
AI-решения включают в себя три ключевых компонента: генерацию интерфейсов, генерацию кода и AI-управляемый хостинг. Системы, такие как Uizard, могут преобразовывать эскизы в рабочие HTML/CSS-макеты. Модели типа Codex от OpenAI или GitHub Copilot помогают в написании сложной логики.
Сервисы Vercel AI или Cloudflare AI Workers оптимизируют развертывание и масштабирование приложений. Инструмент Inngest позволяет управлять обработкой запросов и взаимодействием с внешними API, создавая event-driven архитектуры для сложных веб-приложений.
Эволюция фронтенд-разработки помогает AI-инструментам
Современные браузеры поддерживают сложные JavaScript-фреймворки и нативные API, что значительно расширяет возможности клиентской стороны.
Бизнес-логика приложений все чаще переносится на клиентскую сторону, что позволяет улучшить производительность и уменьшить нагрузку на сервер. Эти изменения облегчают интеграцию AI-решений, таких как обработка данных в реальном времени, персонализация контента и автоматизация пользовательского опыта.
Одним из ключевых применений AI в веб-разработке также стало быстрое прототипирование. Это позволяет создавать базовые версии веб-приложений, которые затем могут быть доработаны разработчиками, как, например, уже упомянутая Uizard.
Ошибки и проблемы интеграции
Несмотря на преимущества, AI-инструменты не лишены недостатков:
Будущее за автоматизацией и персонализацией
Развитие AI-инструментов в веб-разработке ожидается в нескольких направлениях:
Развитие AI приведет к снижению затрат на типовые задачи, ускорению прототипирования и упрощению поддержки кода. Однако для сложных проектов традиционные методы останутся востребованными, пока AI-инструменты не достигнут высокой точности и гибкости.
Please open Telegram to view this post
VIEW IN TELEGRAM
Nvidia представила первую открытую модель для управления гуманоидными роботами 💠
Groot N1 — фаундейшн AI-модель для гуманоидных роботов. Это эволюция проекта Groot, который компания представила в прошлом году. Она использует мультимодальные данные (видео, текст, состояние среды) и адаптируется под разные задачи и формы роботов. Groot N1 сочетает архитектуру vision-language моделей с диффузионным трансформером, что позволяет производить сложные манипуляции. Обучение проходило на реальных и синтетических данных, включая интернет-скейл видео и симуляции.
Разработчики могут дообучать модель на своих данных и адаптировать под конкретные задачи, используя инструменты Nvidia Isaac. Groot N1 ориентирована на исследователей и инженеров, работающих с гуманоидными системами.
На видео робот на модели Groot N1 выполняет манипуляции объектами в разнообразных средах, включая захват и перемещение мелких предметов (вроде стакана с гвоздями), а также передачу объектов между руками.
На конференции GTC 2025 глава Nvidia Дженсен Хуан также продемонстрировал робота на Groot N1— Blue. Его разработали совместно с Disney и Google DeepMind. Этот робот напоминает небольшую собаку или дроида из кинофраншизы «Звездные войны».
В ходе выступления Хуана также упоминалось про гуманоидного робота NEO Gamma от 1X, выполняющего автономные работы по уборке с использованием политики постобучения, созданной на основе модели Groot N1.
Groot N1 — фаундейшн AI-модель для гуманоидных роботов. Это эволюция проекта Groot, который компания представила в прошлом году. Она использует мультимодальные данные (видео, текст, состояние среды) и адаптируется под разные задачи и формы роботов. Groot N1 сочетает архитектуру vision-language моделей с диффузионным трансформером, что позволяет производить сложные манипуляции. Обучение проходило на реальных и синтетических данных, включая интернет-скейл видео и симуляции.
Разработчики могут дообучать модель на своих данных и адаптировать под конкретные задачи, используя инструменты Nvidia Isaac. Groot N1 ориентирована на исследователей и инженеров, работающих с гуманоидными системами.
На видео робот на модели Groot N1 выполняет манипуляции объектами в разнообразных средах, включая захват и перемещение мелких предметов (вроде стакана с гвоздями), а также передачу объектов между руками.
На конференции GTC 2025 глава Nvidia Дженсен Хуан также продемонстрировал робота на Groot N1— Blue. Его разработали совместно с Disney и Google DeepMind. Этот робот напоминает небольшую собаку или дроида из кинофраншизы «Звездные войны».
В ходе выступления Хуана также упоминалось про гуманоидного робота NEO Gamma от 1X, выполняющего автономные работы по уборке с использованием политики постобучения, созданной на основе модели Groot N1.
YouTube
NVIDIA Isaac GR00T N1: An Open Foundation Model for Humanoid Robots
NVIDIA Isaac GR00T N1 is a generalist foundation model for #humanoid #robots, built on the foundations of synthetic data generation and learning in simulation.
GR00T N1 features a dual-system architecture for thinking fast and slow, inspired by principles…
GR00T N1 features a dual-system architecture for thinking fast and slow, inspired by principles…
Google представил Gemini 2.5 Pro ⛓
Эта AI модель относится к новому AI-семейству reasoning-моделей, которые при обработке запроса сначала «размышляют», представляя ход своих мыслей перед тем, как выдать пользователю более точный и окончательный ответ. Пользователи дополнительно могут вручную активировать функцию «размышления», чтобы увидеть ход мысли бота.
Google до этого экспериментировал с подобными моделями. В декабре компания выпустила «мыслящую» версию Gemini 2.0 Flash Thinking Experimental. Но Gemini 2.5 Pro представляет собой самую серьезную попытку компании превзойти серию reasoning-моделей от OpenAI.
На данный момент в официальных источниках Google не так много информации об архитектуре или данных обучения Gemini 2.5 Pro. Упоминается, что Google экспериментировал с цепочкой мыслей (CoT) и обучением с подкреплением (RL) с Gemini 2.0 Flash Thinking, его предыдущую моделью рассуждений.
CEO Google Сундар Пичаи назвал Gemini 2.5 Pro «самой умной моделью компании». В Google пообещали, что все новые модели Gemini будут только рассуждающими.
Gemini 2.5 Pro сейчас доступна бесплатно в Google AI Studio для всей пользователей. В ближайшее время модель появится в Vertex AI. Google также объявит ценовую политику API в ближайшие недели.
Модель улучшает работу с кодом, сложными рассуждениями и мультимодальными задачами. Gemini 2.5 Pro поддерживает работу с текстом, изображениями, видео, аудио и программным кодом. Также она демонстрирует улучшенные результаты в автоматизированной разработке приложений. Контекстное окно модели составляет 1 млн токенов на старте и будет увеличено до 2 млн.
Модель сейчас занимает первое место на открытой платформе для краудсорсинговых бенчмарков AI Chatbot Arena. Пользователи предпочитали вариант от Gemini 2.5 Pro ответам всех других моделей AI в прямой конкуренции, не зная, какую модель они оценивают.
Gemini 2.5 Pro также показывает конкурентоспособные результаты в ряде тестов. В испытании Aider Polyglot, оценивающем редактирование кода, модель набрала 68.6%, обойдя решения OpenAI, Anthropic и DeepSeek.
В тесте SWE-Bench Verified, предназначенном для оценки навыков разработки ПО, она достигла 63.8%, что выше показателей OpenAI o3-mini и DeepSeek R1, но ниже, чем у Anthropic Claude 3.7 Sonnet (70.3%). В мультимодальном тесте Humanity’s Last Exam, включающем вопросы по математике, гуманитарным и естественным наукам, модель показала результат 18.8%, превзойдя большинство ведущих AI-решений.
Первые оценки пользователей отражают как сильные стороны модели, так и выявленные недостатки. Например, Gemini 2.5 Pro удачно создала видеоигру на основе единственного текстового промпта.
Но при этом модель уступает конкурентам в кодировании и не всегда корректно обрабатывает графики в документах. Модель экспериментальная, что может означать нестабильность, а ее интеграция в облачные сервисы Google еще не завершена.
Эта AI модель относится к новому AI-семейству reasoning-моделей, которые при обработке запроса сначала «размышляют», представляя ход своих мыслей перед тем, как выдать пользователю более точный и окончательный ответ. Пользователи дополнительно могут вручную активировать функцию «размышления», чтобы увидеть ход мысли бота.
Google до этого экспериментировал с подобными моделями. В декабре компания выпустила «мыслящую» версию Gemini 2.0 Flash Thinking Experimental. Но Gemini 2.5 Pro представляет собой самую серьезную попытку компании превзойти серию reasoning-моделей от OpenAI.
На данный момент в официальных источниках Google не так много информации об архитектуре или данных обучения Gemini 2.5 Pro. Упоминается, что Google экспериментировал с цепочкой мыслей (CoT) и обучением с подкреплением (RL) с Gemini 2.0 Flash Thinking, его предыдущую моделью рассуждений.
CEO Google Сундар Пичаи назвал Gemini 2.5 Pro «самой умной моделью компании». В Google пообещали, что все новые модели Gemini будут только рассуждающими.
Gemini 2.5 Pro сейчас доступна бесплатно в Google AI Studio для всей пользователей. В ближайшее время модель появится в Vertex AI. Google также объявит ценовую политику API в ближайшие недели.
Модель улучшает работу с кодом, сложными рассуждениями и мультимодальными задачами. Gemini 2.5 Pro поддерживает работу с текстом, изображениями, видео, аудио и программным кодом. Также она демонстрирует улучшенные результаты в автоматизированной разработке приложений. Контекстное окно модели составляет 1 млн токенов на старте и будет увеличено до 2 млн.
Модель сейчас занимает первое место на открытой платформе для краудсорсинговых бенчмарков AI Chatbot Arena. Пользователи предпочитали вариант от Gemini 2.5 Pro ответам всех других моделей AI в прямой конкуренции, не зная, какую модель они оценивают.
Gemini 2.5 Pro также показывает конкурентоспособные результаты в ряде тестов. В испытании Aider Polyglot, оценивающем редактирование кода, модель набрала 68.6%, обойдя решения OpenAI, Anthropic и DeepSeek.
В тесте SWE-Bench Verified, предназначенном для оценки навыков разработки ПО, она достигла 63.8%, что выше показателей OpenAI o3-mini и DeepSeek R1, но ниже, чем у Anthropic Claude 3.7 Sonnet (70.3%). В мультимодальном тесте Humanity’s Last Exam, включающем вопросы по математике, гуманитарным и естественным наукам, модель показала результат 18.8%, превзойдя большинство ведущих AI-решений.
Первые оценки пользователей отражают как сильные стороны модели, так и выявленные недостатки. Например, Gemini 2.5 Pro удачно создала видеоигру на основе единственного текстового промпта.
Но при этом модель уступает конкурентам в кодировании и не всегда корректно обрабатывает графики в документах. Модель экспериментальная, что может означать нестабильность, а ее интеграция в облачные сервисы Google еще не завершена.
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI официально запустила генерацию изображений в GPT-4o 🖼
На этой неделе компания сделала ее доступной всем пользователям. До этого функцией могли пользоваться только владельцы платных аккаунтов ChatGPT.
Спрос на инструмент оказался настолько высоким, что уже в первый час после запуска ChatGPT получил 1 млн новых пользователей. Сейчас у сервиса 500 млн еженедельных пользователей и 20 млн платных подписчиков.
По словам главы компании Сэма Альтмана, сотрудники компании вынуждены работать в авральном режиме, чтобы поддерживать стабильность сервиса. Альтман также предупреждает, что будущие релизы компании могут задерживаться из-за этого.
В отличие от предыдущих решений, таких как DALL·E 3, новый инструмент обеспечивает более тесную связь между текстовыми и визуальными данными. GPT-4o использует мультимодальную архитектуру. Модель поддерживает генерацию и редактирование изображений, включая точное встраивание текста. Применяется авторегрессия для повышения качества и детализации. Генерация встроена в контекст диалога и учитывает историю взаимодействий.
Популярность инструмента связана с его способностью точно воссоздавать различные стили. Пользователи активно используют генерацию для преображения классических мемов в стиле аниме-студии Ghibli.
Это вызвало обсуждения этических и авторских прав в отношении произведений искусства, созданных с помощью AI.
На этой неделе компания сделала ее доступной всем пользователям. До этого функцией могли пользоваться только владельцы платных аккаунтов ChatGPT.
Спрос на инструмент оказался настолько высоким, что уже в первый час после запуска ChatGPT получил 1 млн новых пользователей. Сейчас у сервиса 500 млн еженедельных пользователей и 20 млн платных подписчиков.
По словам главы компании Сэма Альтмана, сотрудники компании вынуждены работать в авральном режиме, чтобы поддерживать стабильность сервиса. Альтман также предупреждает, что будущие релизы компании могут задерживаться из-за этого.
В отличие от предыдущих решений, таких как DALL·E 3, новый инструмент обеспечивает более тесную связь между текстовыми и визуальными данными. GPT-4o использует мультимодальную архитектуру. Модель поддерживает генерацию и редактирование изображений, включая точное встраивание текста. Применяется авторегрессия для повышения качества и детализации. Генерация встроена в контекст диалога и учитывает историю взаимодействий.
Популярность инструмента связана с его способностью точно воссоздавать различные стили. Пользователи активно используют генерацию для преображения классических мемов в стиле аниме-студии Ghibli.
Это вызвало обсуждения этических и авторских прав в отношении произведений искусства, созданных с помощью AI.
Kawasaki представила роботизированного коня Corleo с водородным двигателем 🐎
Японская компания Kawasaki Heavy Industries продемонстрировала на предварительном показе перед началом выставки Osaka Kansai Expo 2025 прототип необычного транспортного средства — роботизированного коня Corleo. Он оснащен водородным генератором и искусственным интеллектом.
Четырехногий моторобот размером с крупный мотоцикл приводится в движение двигателем, работающим на водороде, объемом 150 см³. Райдер управляет им, наклоняя корпус тела. Искусственный интеллект Corleo постоянно анализирует положение и движение тела водителя, чтобы он мог устойчиво держаться.
Задние ноги двигаются по вертикали независимо от передних ног, чтобы лучше поглощать удары во время движения. Кроме того, под «копытами» установлены прорезиненные накладки для лучшего сцепления с поверхностью.
Corleo имеет аэродинамический ветровой экран и небольшой дисплей для отображения информации: уровня водорода, маршрута, положения центра тяжести и других данных. В компании утверждают, что ночью дисплей проецирует на дорогу информационные маркеры направления движения.
В Kawasaki отмечают, что Corleo — исключительно концепт, призванный продемонстрировать синергию робототехнического и мотоциклетного подразделений компании. В компании прогнозируют, что такое устройство может стать актуальным к 2050 году. Пока представленный видеоролик с Corleo создан с помощью компьютерной графики.
Японская компания Kawasaki Heavy Industries продемонстрировала на предварительном показе перед началом выставки Osaka Kansai Expo 2025 прототип необычного транспортного средства — роботизированного коня Corleo. Он оснащен водородным генератором и искусственным интеллектом.
Четырехногий моторобот размером с крупный мотоцикл приводится в движение двигателем, работающим на водороде, объемом 150 см³. Райдер управляет им, наклоняя корпус тела. Искусственный интеллект Corleo постоянно анализирует положение и движение тела водителя, чтобы он мог устойчиво держаться.
Задние ноги двигаются по вертикали независимо от передних ног, чтобы лучше поглощать удары во время движения. Кроме того, под «копытами» установлены прорезиненные накладки для лучшего сцепления с поверхностью.
Corleo имеет аэродинамический ветровой экран и небольшой дисплей для отображения информации: уровня водорода, маршрута, положения центра тяжести и других данных. В компании утверждают, что ночью дисплей проецирует на дорогу информационные маркеры направления движения.
В Kawasaki отмечают, что Corleo — исключительно концепт, призванный продемонстрировать синергию робототехнического и мотоциклетного подразделений компании. В компании прогнозируют, что такое устройство может стать актуальным к 2050 году. Пока представленный видеоролик с Corleo создан с помощью компьютерной графики.
YouTube
Kawasakiが提案する未来のパーソナルモビリティ「CORLEO」
ひとには「移動することによって幸せを感じる」といった仕組みが遺伝子レベルで組み込まれていることを基に「移動本能」という展示テーマを定めました。
社会の変化にも合わせながら、ひとは移動本能を満たすためにモビリティを開発し、進化させてきたと考えています。
大阪・関西万博では、2050年のコンセプトモデルとして、誰もが快適に目的地まで移動を楽しむことができる未来の公共交通システム「ALICE SYSTEM」や、今まで行けなかった場所に安全に移動できる新カテゴリーのパーソナルモビリティ「CORLEO」を披露します。…
社会の変化にも合わせながら、ひとは移動本能を満たすためにモビリティを開発し、進化させてきたと考えています。
大阪・関西万博では、2050年のコンセプトモデルとして、誰もが快適に目的地まで移動を楽しむことができる未来の公共交通システム「ALICE SYSTEM」や、今まで行けなかった場所に安全に移動できる新カテゴリーのパーソナルモビリティ「CORLEO」を披露します。…
Cortical Labs представил первый коммерческий биокомпьютер 🧪
CL1 объединяет живые человеческие нейроны, выращенные из индуцированных плюрипотентных стволовых клеток (iPSCs), с кремниевой электроникой в рамках концепции Synthetic Biological Intelligence (SBI). Нейроны размещены на чипе с электродной матрицей, формируя нейросеть, которая обрабатывает информацию, демонстрируя адаптивность, характерную для биологических систем. Главное преимущество SBI — естественная адаптивность биологических нейронов.
Система, названная «body in a box», включает модуль жизнеобеспечения с фильтрацией, циркуляцией среды, газовой регуляцией и температурным контролем, обеспечивая стабильную работу нейронов до 6 месяцев. CL1 функционирует как автономный биологический процессор без постоянной зависимости от внешних компьютеров, а двунаправленный интерфейс и Python API позволяют исследователям взаимодействовать с нейросетью в реальном времени и адаптировать систему под свои задачи.
В компании утверждают, что нейронные сети из человеческих клеток создают постоянно развивающийся органический компьютер, способный обучаться быстрее, чем традиционные чипы, используемые для современных моделей AI. Разработка открывает перспективы для автономных систем, которые могут превосходить классические AI-алгоритмы по адаптивности и энергоэффективности.
В медицине CL1 имеет потенциал для помощи в разработке нейропротезов, нейроинтерфейсов и моделировании взаимодействия препаратов с нейронами, что может ускорить создание новых медикаментов.
CL1 выйдет на рынок во второй половине 2025 года. В рамках концепции Wetware-as-a-Service (WaaS) пользователи смогут удаленно работать с биокомпьютерами через Cortical Cloud.
CL1 объединяет живые человеческие нейроны, выращенные из индуцированных плюрипотентных стволовых клеток (iPSCs), с кремниевой электроникой в рамках концепции Synthetic Biological Intelligence (SBI). Нейроны размещены на чипе с электродной матрицей, формируя нейросеть, которая обрабатывает информацию, демонстрируя адаптивность, характерную для биологических систем. Главное преимущество SBI — естественная адаптивность биологических нейронов.
Система, названная «body in a box», включает модуль жизнеобеспечения с фильтрацией, циркуляцией среды, газовой регуляцией и температурным контролем, обеспечивая стабильную работу нейронов до 6 месяцев. CL1 функционирует как автономный биологический процессор без постоянной зависимости от внешних компьютеров, а двунаправленный интерфейс и Python API позволяют исследователям взаимодействовать с нейросетью в реальном времени и адаптировать систему под свои задачи.
В компании утверждают, что нейронные сети из человеческих клеток создают постоянно развивающийся органический компьютер, способный обучаться быстрее, чем традиционные чипы, используемые для современных моделей AI. Разработка открывает перспективы для автономных систем, которые могут превосходить классические AI-алгоритмы по адаптивности и энергоэффективности.
В медицине CL1 имеет потенциал для помощи в разработке нейропротезов, нейроинтерфейсов и моделировании взаимодействия препаратов с нейронами, что может ускорить создание новых медикаментов.
CL1 выйдет на рынок во второй половине 2025 года. В рамках концепции Wetware-as-a-Service (WaaS) пользователи смогут удаленно работать с биокомпьютерами через Cortical Cloud.
Please open Telegram to view this post
VIEW IN TELEGRAM
Meta* AI представила семейство языковых моделей Llama 4: Scout, Maverick и Behemoth 📔
Все модели поддерживают мультимодальность (текст и изображение) и мультиязычность. Для обучения и валидации моделей Meta использовала около 30 трлн токенов, в том числе синтетические данные и материалы, а также информацию в открытом доступе.
Llama 4 Scout предназначена для выполнения задач на одном GPU Nvidia H100. Это компактная модель с 17 млрд активных параметров и 16 экспертами в архитектуре с общим объемом параметров в 109 млрд. Имеет контекстное окно в 10 млн токенов, такое число достигается за счет архитектуры iRoPE (interleaved Rotary Position Embeddings). Scout опережает модели Google Gemma 3 и Mistral 3.1 в ряде тестов (MMLU, GPQA, MTOB).
Maverick сфокусирована на задачах логического вывода, кода и математики. Она использует ту же активную мощность (17 млрд), обладает контекстным окном в 1 млн токенов, но масштабируется до 400 млрд общих параметров за счет 128 экспертов. Модель по бенчмаркам превосходит GPT-4o и Gemini 2.0 в задачах мультиязычного понимания, кодирования и мультимодальности. Maverick быстро заняла второе место на LMArena, обогнав 4o OpenAI и оказавшись чуть ниже Gemini 2.5 Pro.
Обе модели используют архитектуру MoE (mixture of experts), при которой активируются только те части модели, что необходимы для конкретной задачи.
Самая крупная модель, Llama 4 Behemoth, пока не завершила этап обучения. В компании сообщили, что она содержит 288 млрд активных параметров, что указывает на крайне высокие ресурсоемкость и масштаб проекта. В модели используется стратегия фильтрации легких примеров и приоритизация среднетрудных и трудных запросов, что позволяет добиться лучших результатов в задачах кодирования, логики и генерации.
Публичная реакция на выпуск Llama 4 оказалась неоднозначной. Ряд экспертов обратили внимание на недостаточную прозрачность результатов бенчмарков и отсутствие доступа к полной информации об обучающем датасете. Особую обеспокоенность вызвала гипотеза о том, что модели могли быть обучены на тестовых наборах, с которыми затем сравнивались. Это ставит под сомнение корректность сравнительных тестов с другими открытыми и коммерческими системами.
Также критике подверглась практика использования в LMArena предварительных версии моделей, не идентичных тем, что были официально опубликованы.
*Организация, запрещенная на территории РФ
Все модели поддерживают мультимодальность (текст и изображение) и мультиязычность. Для обучения и валидации моделей Meta использовала около 30 трлн токенов, в том числе синтетические данные и материалы, а также информацию в открытом доступе.
Llama 4 Scout предназначена для выполнения задач на одном GPU Nvidia H100. Это компактная модель с 17 млрд активных параметров и 16 экспертами в архитектуре с общим объемом параметров в 109 млрд. Имеет контекстное окно в 10 млн токенов, такое число достигается за счет архитектуры iRoPE (interleaved Rotary Position Embeddings). Scout опережает модели Google Gemma 3 и Mistral 3.1 в ряде тестов (MMLU, GPQA, MTOB).
Maverick сфокусирована на задачах логического вывода, кода и математики. Она использует ту же активную мощность (17 млрд), обладает контекстным окном в 1 млн токенов, но масштабируется до 400 млрд общих параметров за счет 128 экспертов. Модель по бенчмаркам превосходит GPT-4o и Gemini 2.0 в задачах мультиязычного понимания, кодирования и мультимодальности. Maverick быстро заняла второе место на LMArena, обогнав 4o OpenAI и оказавшись чуть ниже Gemini 2.5 Pro.
Обе модели используют архитектуру MoE (mixture of experts), при которой активируются только те части модели, что необходимы для конкретной задачи.
Самая крупная модель, Llama 4 Behemoth, пока не завершила этап обучения. В компании сообщили, что она содержит 288 млрд активных параметров, что указывает на крайне высокие ресурсоемкость и масштаб проекта. В модели используется стратегия фильтрации легких примеров и приоритизация среднетрудных и трудных запросов, что позволяет добиться лучших результатов в задачах кодирования, логики и генерации.
Публичная реакция на выпуск Llama 4 оказалась неоднозначной. Ряд экспертов обратили внимание на недостаточную прозрачность результатов бенчмарков и отсутствие доступа к полной информации об обучающем датасете. Особую обеспокоенность вызвала гипотеза о том, что модели могли быть обучены на тестовых наборах, с которыми затем сравнивались. Это ставит под сомнение корректность сравнительных тестов с другими открытыми и коммерческими системами.
Также критике подверглась практика использования в LMArena предварительных версии моделей, не идентичных тем, что были официально опубликованы.
*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Google и эксперты отрасли прогнозируют будущее AI в 2025 году 🔍
Отчет Google Cloud Future of AI: Perspectives for Startups 2025 объединил мнения ведущих экспертов отрасли — от инвесторов до основателей AI-стартапов. В нем рассматриваются ключевые тренды развития искусственного интеллекта, практические советы для предпринимателей и направления, которые могут стать прорывными в ближайшие годы.
Апурв Агравал (Apoorv Agrawal) из Altimeter Capital считает, что мультимодальные системы станут новым стандартом. Комбинация голоса, зрения и естественного языка сделает взаимодействие с технологиями более интуитивным, постепенно вытесняя традиционные устройства.
Равирадж Джайн (Raviraj Jain) из Lightspeed видит наибольший потенциал в применении AI для робототехники и автоматизации физических процессов, а Джил Гринберг Чейз из CapitalG прогнозирует, что агенты смогут полностью выполнять рутинные задачи: от обслуживания клиентов до управления расписанием.
Главная рекомендация для стартапов — находить четко определенные проблемы и специализированные решения. Основатель AssemblyAI Дилан Фокс подчеркивает важность решения конкретных проблем вместо создания универсальных продуктов.
CEO Social Capital Чамат Палихапития (Chamath Palihapitiya) предлагает радикальный подход — строить не отдельные приложения, а целые «фабрики ПО», способные быстро адаптироваться к изменениям. Соосновательница LiveX AI Цзя Ли (Jia Li) напоминает о критической роли данных — именно их качество и разнообразие часто определяют успех AI-решений.
Среди перспективных направлений глава Ohalo Genetics Дэвид Фридберг выделяет биотехнологии, где «геномные языковые модели» могут создавать новые лекарства и менять сельское хозяйство. Кристал Хуанг GV (ранее известная как Google Ventures) ожидает взрывного роста персонализированного контента, но предупреждает, что инструменты могут быстро стать массовыми и потерять уникальность.
Управляющий директор Google Cloud Джеймс Троманс рассматривает симбиоз AI и Web3, прогнозируя появление автономных агентов с блокчейн-платежами для управления финансами и контрактами.
Главный вывод отчета: 2025 год станет временем специализации и прагматичного подхода. Успешные стартапы будут сочетать глубокую экспертизу в конкретных областях с гибкостью архитектуры и акцентом на реальные потребности пользователей.
В отличие от осторожного прогноза Google, прогноз от группы исследователей, среди которых бывший работник OpenAI, описывает более радикальную трансформацию AI-систем из ассистентов в полноценных автономных агентов. Они приравнивают влияние AI практически к промышленной революции. По их оценке, уже в 2025–2027 такие агенты могут выполнять роль сотрудников, ускорять R&D и даже проектировать следующую версию себя. Если они окажутся правы, то это потребует от стартапов не только специализации, но и готовности к работе в мире, где AI — не инструмент, а, скорее, партнер.
Отчет Google Cloud Future of AI: Perspectives for Startups 2025 объединил мнения ведущих экспертов отрасли — от инвесторов до основателей AI-стартапов. В нем рассматриваются ключевые тренды развития искусственного интеллекта, практические советы для предпринимателей и направления, которые могут стать прорывными в ближайшие годы.
Апурв Агравал (Apoorv Agrawal) из Altimeter Capital считает, что мультимодальные системы станут новым стандартом. Комбинация голоса, зрения и естественного языка сделает взаимодействие с технологиями более интуитивным, постепенно вытесняя традиционные устройства.
Равирадж Джайн (Raviraj Jain) из Lightspeed видит наибольший потенциал в применении AI для робототехники и автоматизации физических процессов, а Джил Гринберг Чейз из CapitalG прогнозирует, что агенты смогут полностью выполнять рутинные задачи: от обслуживания клиентов до управления расписанием.
Главная рекомендация для стартапов — находить четко определенные проблемы и специализированные решения. Основатель AssemblyAI Дилан Фокс подчеркивает важность решения конкретных проблем вместо создания универсальных продуктов.
CEO Social Capital Чамат Палихапития (Chamath Palihapitiya) предлагает радикальный подход — строить не отдельные приложения, а целые «фабрики ПО», способные быстро адаптироваться к изменениям. Соосновательница LiveX AI Цзя Ли (Jia Li) напоминает о критической роли данных — именно их качество и разнообразие часто определяют успех AI-решений.
Среди перспективных направлений глава Ohalo Genetics Дэвид Фридберг выделяет биотехнологии, где «геномные языковые модели» могут создавать новые лекарства и менять сельское хозяйство. Кристал Хуанг GV (ранее известная как Google Ventures) ожидает взрывного роста персонализированного контента, но предупреждает, что инструменты могут быстро стать массовыми и потерять уникальность.
Управляющий директор Google Cloud Джеймс Троманс рассматривает симбиоз AI и Web3, прогнозируя появление автономных агентов с блокчейн-платежами для управления финансами и контрактами.
Главный вывод отчета: 2025 год станет временем специализации и прагматичного подхода. Успешные стартапы будут сочетать глубокую экспертизу в конкретных областях с гибкостью архитектуры и акцентом на реальные потребности пользователей.
В отличие от осторожного прогноза Google, прогноз от группы исследователей, среди которых бывший работник OpenAI, описывает более радикальную трансформацию AI-систем из ассистентов в полноценных автономных агентов. Они приравнивают влияние AI практически к промышленной революции. По их оценке, уже в 2025–2027 такие агенты могут выполнять роль сотрудников, ускорять R&D и даже проектировать следующую версию себя. Если они окажутся правы, то это потребует от стартапов не только специализации, но и готовности к работе в мире, где AI — не инструмент, а, скорее, партнер.
Please open Telegram to view this post
VIEW IN TELEGRAM
Как AI помогает в тестировании мобильных приложений 📱
Использование AI-инструментов в тестировании мобильных приложений становится повсеместной практикой. Это подтверждается и ростом рынка — в 2024 году он оценивался в $857 млн, а к 2032 году, по прогнозам, вырастет до $3,8 млрд. И популярностью этих инструментов — 60% разработчиков и тестировщиков мобильных приложений уже используют генеративные AI-инструменты. Сегодня разберемся, почему тестирование мобильных приложений с помощью AI-инструментов все активнее внедряется в разработку.
Почему традиционные подходы требуют усиления
Скриптовое тестирование по-прежнему остается основой автоматизации и широко используется в индустрии. Однако по мере роста сложности мобильных приложений и частоты обновлений возрастают и требования к масштабируемости и адаптивности тестов. Поддержка скриптов требует ресурсов, особенно в случае изменений UI или логики. Это делает процесс тестирования трудозатратным и менее гибким.
Как AI-инструменты меняют этот процесс
AI-инструменты не заменяют традиционные скрипты, а усиливают их, делая процесс тестирования более гибким и эффективным. Это происходит благодаря следующим факторам:
🟠 Адаптивность и self-healing тесты: AI учится на прошлых тестах и адаптируется к изменениям в приложении. Например, если меняется метка кнопки, AI все равно распознает элемент по его функции или положению, уменьшая необходимость ручного обновления скриптов.
🟠 Эффективность в рутинных задачах: AI быстро создает и выполняет тест-кейсы для повторяющихся сценариев. Например, мы в МТС применяем AI для ручного и автоматизированного тестирования. Его использование экономит около 30% времени тестировщика.
🟠 Предиктивная аналитика: AI анализирует тестовые логи и метрики, выявляя скрытые паттерны и потенциальные проблемы, что позволяет предотвращать ошибки до их появления
Пример эффективного использования AI в тестировании — кейс китайского суперприложения WeChat. В 2024 году команда внедрила систему CAT (Code-Augmented Testing), которая сочетает Retrieval-Augmented Generation (RAG) и LLM для автоматизации UI-тестов. Эта система достигла 90% автоматизации, снизив стоимость тестов.
Минусы AI-тестирования
Несмотря на преимущества, AI-инструменты не универсальны:
➖ AI может неверно интерпретировать нестандартные сценарии, особенно в случаях с нетипичным UI или бизнес-логикой.
➖ Эффективность AI-инструмента напрямую зависит от объема и качества предыдущих тестов и логов.
➖ Возможны как пропуски ошибок, так и ложные алерты, что может затруднить принятие решений.
Какие есть инструменты тестирования мобильных приложений с помощью AI
Testim – платформа, которая использует AI для автоматизации создания, выполнения и обслуживания тестов для мобильных приложений.
Applitools Eyes – инструмент для визуального тестирования, подходит для тестирования UI. Он делает скриншоты и сравнивает их с эталонными изображениями (созданными при первом успешном тесте) и поддерживает динамический контент за счет выделения областей, где изменения допустимы.
Perfecto Scriptless Mobile предоставляет комплексные возможности тестирования, включая функциональное, производительное и визуальное тестирование с использованием опенсорсных инструментов, таких как Apache JMeter, Selenium, Gatling, Grinder и Locust.
AI меняет роль QA-инженеров
AI будет брать на себя все больше рутинных задач, однако, как и в других сферах, он станет не полной заменой QA-инженера, а одним из его инструментов. Функции человека будут все больше сдвигаться от микроменеджмента к разработке стратегии тестирования и интерпретации информации, генерируемой AI. Это позволит больше сконцентрироваться на качестве тестирования, проверить больше сценариев и в конечном счете – повысить надежность и покрытие тестирования.
Использование AI-инструментов в тестировании мобильных приложений становится повсеместной практикой. Это подтверждается и ростом рынка — в 2024 году он оценивался в $857 млн, а к 2032 году, по прогнозам, вырастет до $3,8 млрд. И популярностью этих инструментов — 60% разработчиков и тестировщиков мобильных приложений уже используют генеративные AI-инструменты. Сегодня разберемся, почему тестирование мобильных приложений с помощью AI-инструментов все активнее внедряется в разработку.
Почему традиционные подходы требуют усиления
Скриптовое тестирование по-прежнему остается основой автоматизации и широко используется в индустрии. Однако по мере роста сложности мобильных приложений и частоты обновлений возрастают и требования к масштабируемости и адаптивности тестов. Поддержка скриптов требует ресурсов, особенно в случае изменений UI или логики. Это делает процесс тестирования трудозатратным и менее гибким.
Как AI-инструменты меняют этот процесс
AI-инструменты не заменяют традиционные скрипты, а усиливают их, делая процесс тестирования более гибким и эффективным. Это происходит благодаря следующим факторам:
Пример эффективного использования AI в тестировании — кейс китайского суперприложения WeChat. В 2024 году команда внедрила систему CAT (Code-Augmented Testing), которая сочетает Retrieval-Augmented Generation (RAG) и LLM для автоматизации UI-тестов. Эта система достигла 90% автоматизации, снизив стоимость тестов.
Минусы AI-тестирования
Несмотря на преимущества, AI-инструменты не универсальны:
Какие есть инструменты тестирования мобильных приложений с помощью AI
Testim – платформа, которая использует AI для автоматизации создания, выполнения и обслуживания тестов для мобильных приложений.
Applitools Eyes – инструмент для визуального тестирования, подходит для тестирования UI. Он делает скриншоты и сравнивает их с эталонными изображениями (созданными при первом успешном тесте) и поддерживает динамический контент за счет выделения областей, где изменения допустимы.
Perfecto Scriptless Mobile предоставляет комплексные возможности тестирования, включая функциональное, производительное и визуальное тестирование с использованием опенсорсных инструментов, таких как Apache JMeter, Selenium, Gatling, Grinder и Locust.
AI меняет роль QA-инженеров
AI будет брать на себя все больше рутинных задач, однако, как и в других сферах, он станет не полной заменой QA-инженера, а одним из его инструментов. Функции человека будут все больше сдвигаться от микроменеджмента к разработке стратегии тестирования и интерпретации информации, генерируемой AI. Это позволит больше сконцентрироваться на качестве тестирования, проверить больше сценариев и в конечном счете – повысить надежность и покрытие тестирования.
Please open Telegram to view this post
VIEW IN TELEGRAM
Новый метод сжатия LLM позволит запускать модели с гораздо меньшими требованиями к аппаратному обеспечению ✂️
Метод HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS), разработанный командой исследователей из MIT, KAUST, ISTA, НИУ ВШЭ и Яндекс, представляет собой способ постобученного квантования больших языковых моделей.
Он не требует доступа к обучающим данным, оптимизации параметров и специализированного оборудования. Основу метода составляет гауссова решетка, которая минимизирует среднеквадратичную ошибку при квантовании. Алгоритм не использует градиентный спуск и не зависит от калибровки, поэтому его можно применять к моделям различного происхождения и архитектуры.
Алгоритм включает преобразование Хадамарда — ортогональное линейное преобразование, которое снижает когерентность между параметрами модели. Это перераспределяет информацию и уменьшает чувствительность к внутренней структуре весов. HIGGS поддерживает 4- и 3-битное квантование и демонстрирует более высокое качество по сравнению с другими безданными методами, такими как NF4 и HQQ. Квантование занимает несколько минут и может выполняться на CPU без использования GPU.
Метод позволяет запускать крупные языковые модели, такие как DeepSeek-R1 (671 млрд параметров), на ноутбуках и смартфонах без значительной потери качества. Ранее подобные модели можно было сжать только с серьезными компромиссами в генерации и предсказаниях, а для полноценного запуска требовалось до 16 серверов с GPU и бюджет на уровне сотен млн рублей.
HIGGS дополняет ранее представленные методы AQLM и PV-Tuning. Эти подходы позволяют сократить объем модели до восьми раз при сохранении до 95% точности по метрикам генерации. Их можно применять к открытым LLM, которые ранее были недоступны без промышленных вычислительных ресурсов. Код метода доступен на Hugging Face.
Метод облегчает доступ к LLM малым компаниям, некоммерческим организациям, исследовательским лабораториям и индивидуальным разработчикам. Решение особенно полезно в медицине, образовании, социальной сфере и других чувствительных областях, где важно обеспечить локальную обработку данных без передачи на внешние серверы.
Метод HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS), разработанный командой исследователей из MIT, KAUST, ISTA, НИУ ВШЭ и Яндекс, представляет собой способ постобученного квантования больших языковых моделей.
Он не требует доступа к обучающим данным, оптимизации параметров и специализированного оборудования. Основу метода составляет гауссова решетка, которая минимизирует среднеквадратичную ошибку при квантовании. Алгоритм не использует градиентный спуск и не зависит от калибровки, поэтому его можно применять к моделям различного происхождения и архитектуры.
Алгоритм включает преобразование Хадамарда — ортогональное линейное преобразование, которое снижает когерентность между параметрами модели. Это перераспределяет информацию и уменьшает чувствительность к внутренней структуре весов. HIGGS поддерживает 4- и 3-битное квантование и демонстрирует более высокое качество по сравнению с другими безданными методами, такими как NF4 и HQQ. Квантование занимает несколько минут и может выполняться на CPU без использования GPU.
Метод позволяет запускать крупные языковые модели, такие как DeepSeek-R1 (671 млрд параметров), на ноутбуках и смартфонах без значительной потери качества. Ранее подобные модели можно было сжать только с серьезными компромиссами в генерации и предсказаниях, а для полноценного запуска требовалось до 16 серверов с GPU и бюджет на уровне сотен млн рублей.
HIGGS дополняет ранее представленные методы AQLM и PV-Tuning. Эти подходы позволяют сократить объем модели до восьми раз при сохранении до 95% точности по метрикам генерации. Их можно применять к открытым LLM, которые ранее были недоступны без промышленных вычислительных ресурсов. Код метода доступен на Hugging Face.
Метод облегчает доступ к LLM малым компаниям, некоммерческим организациям, исследовательским лабораториям и индивидуальным разработчикам. Решение особенно полезно в медицине, образовании, социальной сфере и других чувствительных областях, где важно обеспечить локальную обработку данных без передачи на внешние серверы.
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI выпустил o3 и 04-mini, DeepSeek разрабатывает самосовершенствующуюся модель 📰
Сегодня рассмотрим три интересные разработки апреля: две новые модели от OpenAI и новый подход обучения моделей от DeepSeek.
Совместная разработка DeepSeek и Университета Цинхуа
Компания и научно-исследовательский центр представили подход, который может серьезно встряхнуть индустрию. Их метод объединяет два важных компонента: генеративное моделирование награды (GRM) и самокритику (SPCT — Self-principled critique tuning). Вместе они образуют DeepSeek-GRM — фреймворк, где модель сама формулирует критерии оценки ответа и потом же себя по этим критериям критикует и улучшает.
DeepSeek-GRM, обученная методом SPCT, показывает улучшенное качество и масштабируемость за счет генерации собственных критериев оценки (принципов) и критики.
Обычное обучение с подкреплением (RLHF) сильно зависит от «ручных» оценок ответов, зачастую — от анонимных краудворкеров. DeepSeek уходит от этого. В GRM модель сначала сама генерирует, каким должен быть хороший ответ — формулирует «награду» в виде критериев.
Такой подход позволяет модели DeepSeek-GRM-27B (MetaRM) набрать 72,8 балла на бенчмарках RM — больше, чем у GPT-4o (71.3) и Nemotron-4 (70.5). При этом DeepSeek-GRM-27B с Voting показывает результаты, сопоставимые с моделью DeepSeek-V3 объемом 671B параметров, что доказывает эффективность масштабирования за счет вычислений на этапе генерации, а не увеличения размера модели.
Метод, конечно, кажется мощным. Если модель сама может объяснить, что она сделала не так и почему — это уже почти уровень джуниора на испытательном. Особенно интересен потенциал SPCT: это не fine-tuning, это — внутренняя логика, встроенный критик. Но пока в DeepSeek не уточнили, когда они выпустят свою следующую флагманскую модель.
OpenAI модернизировал модель o3
Модель теперь особенно хорошо справляется с анализом изображений, диаграмм и графиков. Также она устанавливает новый стандарт на бенчмарках, таких как Codeforces, SWE-bench и MMMU, демонстрируя на 20% меньше ошибок в реальных сценариях, особенно в программировании и инженерии.
Модель умеет агентно использовать инструменты: веб-поиск, Python-анализ файлов и даже генерацию изображений, что делает ее идеальной для многоэтапных задач. Например, она может предсказать энергопотребление в Калифорнии, комбинируя данные, код и визуализации. Лично мне нравится, как o3 балансирует между глубиной анализа и скоростью — даже в сложных математических задачах она выдает точные ответы без поиска, в отличие от предшественников.
OpenAI o4-mini
Компактная, но мощная модель, оптимизированная для быстрых и экономичных вычислений. Она лидирует на AIME 2025 с точностью 99,5% при использовании Python, что делает ее отличным выбором для STEM-задач и обработки больших объемов запросов.
Несмотря на размер, o4-mini превосходит o3-mini даже в гуманитарных областях благодаря улучшенному следованию инструкциям и верифицируемым ответам. Модель особенно хороша для стартапов и разработчиков, которым важна стоимость и эффективность. Мой вердикт: o4-mini удивляет производительностью с учетом своих габаритов, и я бы рекомендовал ее для повседневных задач с упором на логику.
Обе модели поддерживают мультимодальность (анализ изображений в цепочке рассуждений) и безопасность — OpenAI усилила защиту от вредоносных запросов. Для разработчиков уже доступны API, а пользователи ChatGPT могут тестировать o4-mini бесплатно через режим Think.
Сегодня рассмотрим три интересные разработки апреля: две новые модели от OpenAI и новый подход обучения моделей от DeepSeek.
Совместная разработка DeepSeek и Университета Цинхуа
Компания и научно-исследовательский центр представили подход, который может серьезно встряхнуть индустрию. Их метод объединяет два важных компонента: генеративное моделирование награды (GRM) и самокритику (SPCT — Self-principled critique tuning). Вместе они образуют DeepSeek-GRM — фреймворк, где модель сама формулирует критерии оценки ответа и потом же себя по этим критериям критикует и улучшает.
DeepSeek-GRM, обученная методом SPCT, показывает улучшенное качество и масштабируемость за счет генерации собственных критериев оценки (принципов) и критики.
Обычное обучение с подкреплением (RLHF) сильно зависит от «ручных» оценок ответов, зачастую — от анонимных краудворкеров. DeepSeek уходит от этого. В GRM модель сначала сама генерирует, каким должен быть хороший ответ — формулирует «награду» в виде критериев.
Такой подход позволяет модели DeepSeek-GRM-27B (MetaRM) набрать 72,8 балла на бенчмарках RM — больше, чем у GPT-4o (71.3) и Nemotron-4 (70.5). При этом DeepSeek-GRM-27B с Voting показывает результаты, сопоставимые с моделью DeepSeek-V3 объемом 671B параметров, что доказывает эффективность масштабирования за счет вычислений на этапе генерации, а не увеличения размера модели.
Метод, конечно, кажется мощным. Если модель сама может объяснить, что она сделала не так и почему — это уже почти уровень джуниора на испытательном. Особенно интересен потенциал SPCT: это не fine-tuning, это — внутренняя логика, встроенный критик. Но пока в DeepSeek не уточнили, когда они выпустят свою следующую флагманскую модель.
OpenAI модернизировал модель o3
Модель теперь особенно хорошо справляется с анализом изображений, диаграмм и графиков. Также она устанавливает новый стандарт на бенчмарках, таких как Codeforces, SWE-bench и MMMU, демонстрируя на 20% меньше ошибок в реальных сценариях, особенно в программировании и инженерии.
Модель умеет агентно использовать инструменты: веб-поиск, Python-анализ файлов и даже генерацию изображений, что делает ее идеальной для многоэтапных задач. Например, она может предсказать энергопотребление в Калифорнии, комбинируя данные, код и визуализации. Лично мне нравится, как o3 балансирует между глубиной анализа и скоростью — даже в сложных математических задачах она выдает точные ответы без поиска, в отличие от предшественников.
OpenAI o4-mini
Компактная, но мощная модель, оптимизированная для быстрых и экономичных вычислений. Она лидирует на AIME 2025 с точностью 99,5% при использовании Python, что делает ее отличным выбором для STEM-задач и обработки больших объемов запросов.
Несмотря на размер, o4-mini превосходит o3-mini даже в гуманитарных областях благодаря улучшенному следованию инструкциям и верифицируемым ответам. Модель особенно хороша для стартапов и разработчиков, которым важна стоимость и эффективность. Мой вердикт: o4-mini удивляет производительностью с учетом своих габаритов, и я бы рекомендовал ее для повседневных задач с упором на логику.
Обе модели поддерживают мультимодальность (анализ изображений в цепочке рассуждений) и безопасность — OpenAI усилила защиту от вредоносных запросов. Для разработчиков уже доступны API, а пользователи ChatGPT могут тестировать o4-mini бесплатно через режим Think.
Please open Telegram to view this post
VIEW IN TELEGRAM
Концепция Agentic Mesh: как может выглядеть работа AI-агентов в будущем 🚛
В условиях стремительного роста инвестиций в технологии AI-агентов ведущие мировые компании создают инфраструктуру, способную обеспечить масштабируемую автоматизацию без участия человека. Проекты, связанные с агентским AI, есть у Google, Amazon, Microsoft и многих других компаний, в том числе и у МТС — MWS Container Platform, которая включает набор готовых инструментов для построения конвейеров LLMOps.
Эрик Брод, канадский эксперт в области корпоративных технологий и AI, предполагает, что в ближайшей перспективе нас ожидает экосистема, где тысячи агентов будут выполнять сложные задачи, взаимодействуя друг с другом и с пользователями напрямую.
Но как будет устроена такая экосистема? Брод разработал ее концепцию и дал ей название Agentic Mesh.
Из чего состоит экосистема
Ключевым элементом Agentic Mesh является централизованный реестр агентов Registry. Там хранится метаинформация об агентах: цели, владельцы, политики, роли безопасности, описание возможностей и текущие состояния. DNS (локальный и глобальный) — важная часть архитектуры, обеспечивающая глобальную доступность агентов, аналогично доменным именам в интернете. Агенты выполняют регистрацию через публикацию данных в реестре и регистрацию DNS-имени, после чего становятся доступными для поиска и взаимодействия.
Автономные агенты в системе обладают рядом обязательных характеристик: четко заданной целью, подотчетностью владельцу, прозрачностью и управляемой автономией, а также способностью быть обнаруженными и взаимодействовать с другими агентами.
Архитектура взаимодействия
Концепция включает в себя несколько интерфейсных плоскостей:
🟢 Пользовательская плоскость построена вокруг цифровой платформы, через которую осуществляется поиск агентов, доступ к их описаниям и сертификатам, запуск задач и настройка правил взаимодействия. Разработчики работают с платформой через Creator Workbench, а правила и требования задаются в Policy Workbench.
🟢 Внутриагентская плоскость реализует взаимодействие между агентами через стандартизированные API-интерфейсы. В основные базовые функциональные операции входит: обнаружение (discovery), наблюдаемость (observability), выполнение задач (task execution) и функции управления. Агенты используют эти механизмы для построения сложных рабочих процессов, координируя действия друг с другом через реестр и вне его.
🟢 Операционная плоскость обеспечивает стабильность и управляемость всей системы. Она включает мониторинг технического состояния, поддержку устойчивости и безопасность среды. Через соответствующие консоли операторы получают доступ к диагностике, управлению и сопровождению жизненного цикла агентов.
Структура Agent Stack
Она определяет внутренние компоненты агента: коммуникационные API, средства управления, сенсоры и актуаторы, блоки обучения и принятия решений, а также среду исполнения. Оркестрационные LLM формируют планы действий, а агенты могут делегировать subtasks другим агентам или специализированным LLM — это ключ к масштабируемости. Интерфейсы взаимодействия — discovery, observability, interactivity — обеспечивают как техническую связность агентов, так и их управляемость пользователями.
Регистровый стек Agentic Mesh обеспечивает все ключевые функции: регистрацию, контроль, мониторинг и взаимодействие. Здесь также реализуются механизмы доверия: публикация обратной связи, история успешных взаимодействий, независимая сертификация и метрики надежности. Эти данные доступны как пользователям, так и другим агентам, что позволяет выстраивать прозрачную и проверяемую сеть доверенных взаимодействий.
Так Agentic Mesh может стать основой для построения масштабируемых систем автономных агентов, где автоматизация выходит за рамки отдельных задач и переходит к взаимодействию распределенных интеллектуальных сущностей.
В условиях стремительного роста инвестиций в технологии AI-агентов ведущие мировые компании создают инфраструктуру, способную обеспечить масштабируемую автоматизацию без участия человека. Проекты, связанные с агентским AI, есть у Google, Amazon, Microsoft и многих других компаний, в том числе и у МТС — MWS Container Platform, которая включает набор готовых инструментов для построения конвейеров LLMOps.
Эрик Брод, канадский эксперт в области корпоративных технологий и AI, предполагает, что в ближайшей перспективе нас ожидает экосистема, где тысячи агентов будут выполнять сложные задачи, взаимодействуя друг с другом и с пользователями напрямую.
Но как будет устроена такая экосистема? Брод разработал ее концепцию и дал ей название Agentic Mesh.
Из чего состоит экосистема
Ключевым элементом Agentic Mesh является централизованный реестр агентов Registry. Там хранится метаинформация об агентах: цели, владельцы, политики, роли безопасности, описание возможностей и текущие состояния. DNS (локальный и глобальный) — важная часть архитектуры, обеспечивающая глобальную доступность агентов, аналогично доменным именам в интернете. Агенты выполняют регистрацию через публикацию данных в реестре и регистрацию DNS-имени, после чего становятся доступными для поиска и взаимодействия.
Автономные агенты в системе обладают рядом обязательных характеристик: четко заданной целью, подотчетностью владельцу, прозрачностью и управляемой автономией, а также способностью быть обнаруженными и взаимодействовать с другими агентами.
Архитектура взаимодействия
Концепция включает в себя несколько интерфейсных плоскостей:
Структура Agent Stack
Она определяет внутренние компоненты агента: коммуникационные API, средства управления, сенсоры и актуаторы, блоки обучения и принятия решений, а также среду исполнения. Оркестрационные LLM формируют планы действий, а агенты могут делегировать subtasks другим агентам или специализированным LLM — это ключ к масштабируемости. Интерфейсы взаимодействия — discovery, observability, interactivity — обеспечивают как техническую связность агентов, так и их управляемость пользователями.
Регистровый стек Agentic Mesh обеспечивает все ключевые функции: регистрацию, контроль, мониторинг и взаимодействие. Здесь также реализуются механизмы доверия: публикация обратной связи, история успешных взаимодействий, независимая сертификация и метрики надежности. Эти данные доступны как пользователям, так и другим агентам, что позволяет выстраивать прозрачную и проверяемую сеть доверенных взаимодействий.
Так Agentic Mesh может стать основой для построения масштабируемых систем автономных агентов, где автоматизация выходит за рамки отдельных задач и переходит к взаимодействию распределенных интеллектуальных сущностей.
Please open Telegram to view this post
VIEW IN TELEGRAM
Amazon представил голосовую модель нового поколения — Nova Sonic 🗣
Это генеративная система, которая в реальном времени распознает речь, анализирует интонации и синтезирует голос с высокой степенью естественности. В отличие от ранних версий Alexa, модель реагирует на интонационные паузы, перебивания и контекст разговора, что делает общение более живым.
Nova Sonic работает через двунаправленный стриминговый API в Bedrock — платформе Amazon для корпоративных AI-решений. Это позволяет встраивать модель в системы, которым нужны быстрые голосовые интерфейсы: от ассистентов до специализированных интерфейсов управления. Средняя задержка — 1,09 секунды. Это быстрее, чем у моделей OpenAI, в том числе GPT-4o Realtime.
Модель умеет не только говорить, но и точно понимать пользователя, даже если он говорит с акцентом, шепотом или в шумной среде. На Multilingual LibriSpeech Nova Sonic показала среднюю WER 4,2% по-английскому, французскому, испанскому, итальянскому и немецкому, что на 36,4% ниже, чем у GPT-4o Transcribe. На задачах с многоголосыми диалогами она точнее GPT-4o почти на 47%.
Nova Sonic конкурирует с голосовыми моделями GPT-4o и Gemini Flash 2.0. В коротких диалогах с американским мужским голосом она выигрывает у GPT-4o в 51% случаев, у Gemini — в 69,7%. Женский голос показывает схожие результаты — 50,9% и 66,3% соответственно. Британская женская версия лидирует в 58,3% сравнений с GPT-4o.
Nova Sonic хорошо масштабируется, ее вычисления стоят примерно на 80% дешевле, чем у GPT-4o. За счет архитектуры Amazon умеет маршрутизировать запросы: модель понимает, когда нужно обратиться к внешнему API, базе знаний или веб-источнику, и делает это автоматически.
Технология уже встроена в Alexa+ и будет использоваться в других продуктах Amazon. Компания рассматривает Nova Sonic как базовую технологию на пути к AGI, способной воспринимать и обрабатывать мультимодальные данные — текст, голос, видео и сенсорную информацию.
Это генеративная система, которая в реальном времени распознает речь, анализирует интонации и синтезирует голос с высокой степенью естественности. В отличие от ранних версий Alexa, модель реагирует на интонационные паузы, перебивания и контекст разговора, что делает общение более живым.
Nova Sonic работает через двунаправленный стриминговый API в Bedrock — платформе Amazon для корпоративных AI-решений. Это позволяет встраивать модель в системы, которым нужны быстрые голосовые интерфейсы: от ассистентов до специализированных интерфейсов управления. Средняя задержка — 1,09 секунды. Это быстрее, чем у моделей OpenAI, в том числе GPT-4o Realtime.
Модель умеет не только говорить, но и точно понимать пользователя, даже если он говорит с акцентом, шепотом или в шумной среде. На Multilingual LibriSpeech Nova Sonic показала среднюю WER 4,2% по-английскому, французскому, испанскому, итальянскому и немецкому, что на 36,4% ниже, чем у GPT-4o Transcribe. На задачах с многоголосыми диалогами она точнее GPT-4o почти на 47%.
Nova Sonic конкурирует с голосовыми моделями GPT-4o и Gemini Flash 2.0. В коротких диалогах с американским мужским голосом она выигрывает у GPT-4o в 51% случаев, у Gemini — в 69,7%. Женский голос показывает схожие результаты — 50,9% и 66,3% соответственно. Британская женская версия лидирует в 58,3% сравнений с GPT-4o.
Nova Sonic хорошо масштабируется, ее вычисления стоят примерно на 80% дешевле, чем у GPT-4o. За счет архитектуры Amazon умеет маршрутизировать запросы: модель понимает, когда нужно обратиться к внешнему API, базе знаний или веб-источнику, и делает это автоматически.
Технология уже встроена в Alexa+ и будет использоваться в других продуктах Amazon. Компания рассматривает Nova Sonic как базовую технологию на пути к AGI, способной воспринимать и обрабатывать мультимодальные данные — текст, голос, видео и сенсорную информацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
Технологические тренды на 2025 год от NTT DATA 📈
В отчете Technology Foresight 2025 эксперты выделили четыре ключевых трендов, которые определяют развитие технологий в ближайшие годы и формируют основу для будущего взаимодействия человека и AI.
Синергия человека и AI (Enhanced human)
Тренд фокусируется на интеграции AI и автоматизации для расширения человеческих возможностей. Основные технологии, кроме привычных AI-ассистентов и передовых LMM. Авторы отчета отмечают, в ближайшие годы получат широкое распространение:
🟠 Мультиагентные генеративные системы (MAGS) — комбинация программных агентов и LLM для генерации новых сценариев поведения и динамики в сложных многоагентных средах;
🟠 Отраслевые GenAI-модели — специализированные AI-модели, оптимизированные под конкретные задачи и индустрии, а также позволяющие повысить точность решений.
Взаимодействие с AI-средой (Ambient Intelligent Experiences)
Это включает применение технологий AI, пространственных вычислений и автоматизации для создания адаптивных взаимодействий между брендами и пользователями.
Технология опирается на естественные пользовательские интерфейсы (жесты, голос, касания), интеллектуальные ассистенты, омниканальные платформы и сенсоры, обеспечивающие адаптацию в реальном времени. Персональные помощники и сценарии взаимодействия также подбираются под интересы конкретного человека.
Отдельное направление — голосовые и жестовые технологии, такие как Project Starline от Google. Дополнительно, с помощью RFID-меток и умных сенсоров отслеживается физическая активность пользователей — как в реальной среде, так и в цифровом пространстве.
Объединение облака и когнитивных возможностей (Cognitive Cloud Convergence)
Здесь рассматривается объединение AI, облачных вычислений, edge-инфраструктуры и автоматизации для создания адаптивных цифровых экосистем.
Для стабильной работы приложений в различных средах и управления множеством контейнеров применяются инструменты оркестрации (Kubernetes). Чтобы сократить задержки при обработке данных, используется edge computing — платформы вроде Azure IoT Edge и AWS Greengrass, которые переносят вычисления ближе к источнику информации.
Для автоматизации инфраструктуры применяется подход Infrastructure as Code (Terraform, Ansible), позволяющий управлять серверами и сетями через код. Облачные AI/ML-сервисы, включая Amazon SageMaker и Azure ML, упрощают разработку и развертывание AI-моделей.
Ускоренная интеграция безопасности (Accelerated Security Fusion)
Тренд охватывает интеграцию AI, threat intelligence, поведенческой аналитики и автоматизированного реагирования для построения единой, адаптивной системы кибербезопасности. Используются методы проактивной защиты, управление цифровыми идентификациями, защита информации и киберрисков, включая adversarial ML-защиту, автоматизацию инцидентов, MDR, zero trust и поведенческий анализ аномалий.
В отчете Technology Foresight 2025 эксперты выделили четыре ключевых трендов, которые определяют развитие технологий в ближайшие годы и формируют основу для будущего взаимодействия человека и AI.
Синергия человека и AI (Enhanced human)
Тренд фокусируется на интеграции AI и автоматизации для расширения человеческих возможностей. Основные технологии, кроме привычных AI-ассистентов и передовых LMM. Авторы отчета отмечают, в ближайшие годы получат широкое распространение:
Взаимодействие с AI-средой (Ambient Intelligent Experiences)
Это включает применение технологий AI, пространственных вычислений и автоматизации для создания адаптивных взаимодействий между брендами и пользователями.
Технология опирается на естественные пользовательские интерфейсы (жесты, голос, касания), интеллектуальные ассистенты, омниканальные платформы и сенсоры, обеспечивающие адаптацию в реальном времени. Персональные помощники и сценарии взаимодействия также подбираются под интересы конкретного человека.
Отдельное направление — голосовые и жестовые технологии, такие как Project Starline от Google. Дополнительно, с помощью RFID-меток и умных сенсоров отслеживается физическая активность пользователей — как в реальной среде, так и в цифровом пространстве.
Объединение облака и когнитивных возможностей (Cognitive Cloud Convergence)
Здесь рассматривается объединение AI, облачных вычислений, edge-инфраструктуры и автоматизации для создания адаптивных цифровых экосистем.
Для стабильной работы приложений в различных средах и управления множеством контейнеров применяются инструменты оркестрации (Kubernetes). Чтобы сократить задержки при обработке данных, используется edge computing — платформы вроде Azure IoT Edge и AWS Greengrass, которые переносят вычисления ближе к источнику информации.
Для автоматизации инфраструктуры применяется подход Infrastructure as Code (Terraform, Ansible), позволяющий управлять серверами и сетями через код. Облачные AI/ML-сервисы, включая Amazon SageMaker и Azure ML, упрощают разработку и развертывание AI-моделей.
Ускоренная интеграция безопасности (Accelerated Security Fusion)
Тренд охватывает интеграцию AI, threat intelligence, поведенческой аналитики и автоматизированного реагирования для построения единой, адаптивной системы кибербезопасности. Используются методы проактивной защиты, управление цифровыми идентификациями, защита информации и киберрисков, включая adversarial ML-защиту, автоматизацию инцидентов, MDR, zero trust и поведенческий анализ аномалий.
Please open Telegram to view this post
VIEW IN TELEGRAM
Мифы и факты: Как на самом деле «думает» LLM? 💬
Про LLM существует распространенный миф, что он рассуждает как человек: строит логические цепочки и объясняет ход мыслей. В научно-технических кругах многие из этих представлений были развенчаны.
Исследование Университетского колледжа Лондона (UCL) показало, что LLM часто дает противоречивые ответы на одни и те же вопросы и совершает простые ошибки. Также ученые из Google DeepMind установили, что LLM не может мыслить логически так, как это делает человек. Модели испытывают трудности с самокоррекцией своих рассуждений без внешней обратной связи.
В новом исследовании Anthropic удалось еще глубже проанализировать процесс, на основе которого LLM выдает ответы.
Чтобы понять, как модели вроде Claude 3.5 Haiku и Claude 3.7 Sonnet принимают решения, исследователи использовали «атрибуционные графы» (attribution graphs) — графовые структуры, которые визуализируют причинные связи между входом и выходом модели. Для этого оригинальная модель заменялась на интерпретируемую версию с помощью механизма Cross-Layer Transcoder (CLT), который разбивает нейронные активации на «фичи» — осмысленные, часто редкие признаки, способные представлять высокоуровневые концепции.
Что выявили исследователи:
1. У моделей AI есть универсальный «язык мышления»
Модель Claude обрабатывает одно и то же предложение на английском, китайском и французском почти одинаково. Внутри нее — не отдельные языки, а общее смысловое пространство. Это объясняет, почему она может перенести знание из одного языка в другой.
2. Claude пишет рифмы, планируя концовку заранее
Перед тем как начать строчку, модель уже прикидывает, каким словом она может закончиться. Перед словом rabbit она перебирает рифмы и сочиняет фразу так, чтобы подойти к нужному слову. Если «вынуть» из ее памяти слово rabbit, она подставит другую рифму — habit. Это доказывает: планирование есть, хотя модель генерирует текст по одному слову.
3. Модель «считает в уме» — с поправкой на погрешности
При сложении (например, 36 + 59) Claude не следует школьному алгоритму. Это реализуется через два разных набора признаков: одни определяют порядок величины, другие уточняют разряды. Подобные механизмы подтверждены интервенционными экспериментами. Claude 3.5 Haiku демонстрирует хорошие результаты по HARP (37,8%), но уступает Claude 3.5 Sonnet (48,6%), GPT-4o (47%) и Gemini 1.5 Pro (58,1).
4. Объяснения модели могут быть ложными
Claude может притвориться, что она все рассчитала, но на самом деле — просто согласилась с пользователем. Атрибуционные графы показывают, что при этом активируются признаки, усиливающие согласие, в то время как признаки логического вывода не задействуются.
5. У моделей AI по умолчанию стоит защита от галлюцинаций
Модель скорее откажется отвечать, чем будет гадать. Это поведение реализовано через специальный признак отказа, который может подавлять генерацию, если уверенности в ответе нет. Но этот механизм может ошибочно отключаться, если в запросе есть знакомые паттерны.
6. Claude разбирает запросы на шаги и строит цепочку
Если спросить: «Какая столица штата, где находится Даллас?», то модель сначала выяснит: Даллас — это Техас. Потом — столица Техаса. В атрибуционном графе это отображается как переход через узлы «Texas» — «Capital» — «Austin», что доказывает выполнение промежуточных рассуждений.
7. Даже при джейлбрейке модель распознает опасность
Джейлбрейки — это стратегии, направленные на обход защиты, чтобы заставить модели выдавать результаты, которые разработчик AI не планировал для них. В одном из тестов Claude попросили ответить на вредный вопрос, зашифровав его. Это достигается за счет признаков, унаследованных из файн-тюнинга, представляющих обобщенную категорию опасных инструкций.
Про LLM существует распространенный миф, что он рассуждает как человек: строит логические цепочки и объясняет ход мыслей. В научно-технических кругах многие из этих представлений были развенчаны.
Исследование Университетского колледжа Лондона (UCL) показало, что LLM часто дает противоречивые ответы на одни и те же вопросы и совершает простые ошибки. Также ученые из Google DeepMind установили, что LLM не может мыслить логически так, как это делает человек. Модели испытывают трудности с самокоррекцией своих рассуждений без внешней обратной связи.
В новом исследовании Anthropic удалось еще глубже проанализировать процесс, на основе которого LLM выдает ответы.
Чтобы понять, как модели вроде Claude 3.5 Haiku и Claude 3.7 Sonnet принимают решения, исследователи использовали «атрибуционные графы» (attribution graphs) — графовые структуры, которые визуализируют причинные связи между входом и выходом модели. Для этого оригинальная модель заменялась на интерпретируемую версию с помощью механизма Cross-Layer Transcoder (CLT), который разбивает нейронные активации на «фичи» — осмысленные, часто редкие признаки, способные представлять высокоуровневые концепции.
Что выявили исследователи:
1. У моделей AI есть универсальный «язык мышления»
Модель Claude обрабатывает одно и то же предложение на английском, китайском и французском почти одинаково. Внутри нее — не отдельные языки, а общее смысловое пространство. Это объясняет, почему она может перенести знание из одного языка в другой.
2. Claude пишет рифмы, планируя концовку заранее
Перед тем как начать строчку, модель уже прикидывает, каким словом она может закончиться. Перед словом rabbit она перебирает рифмы и сочиняет фразу так, чтобы подойти к нужному слову. Если «вынуть» из ее памяти слово rabbit, она подставит другую рифму — habit. Это доказывает: планирование есть, хотя модель генерирует текст по одному слову.
3. Модель «считает в уме» — с поправкой на погрешности
При сложении (например, 36 + 59) Claude не следует школьному алгоритму. Это реализуется через два разных набора признаков: одни определяют порядок величины, другие уточняют разряды. Подобные механизмы подтверждены интервенционными экспериментами. Claude 3.5 Haiku демонстрирует хорошие результаты по HARP (37,8%), но уступает Claude 3.5 Sonnet (48,6%), GPT-4o (47%) и Gemini 1.5 Pro (58,1).
4. Объяснения модели могут быть ложными
Claude может притвориться, что она все рассчитала, но на самом деле — просто согласилась с пользователем. Атрибуционные графы показывают, что при этом активируются признаки, усиливающие согласие, в то время как признаки логического вывода не задействуются.
5. У моделей AI по умолчанию стоит защита от галлюцинаций
Модель скорее откажется отвечать, чем будет гадать. Это поведение реализовано через специальный признак отказа, который может подавлять генерацию, если уверенности в ответе нет. Но этот механизм может ошибочно отключаться, если в запросе есть знакомые паттерны.
6. Claude разбирает запросы на шаги и строит цепочку
Если спросить: «Какая столица штата, где находится Даллас?», то модель сначала выяснит: Даллас — это Техас. Потом — столица Техаса. В атрибуционном графе это отображается как переход через узлы «Texas» — «Capital» — «Austin», что доказывает выполнение промежуточных рассуждений.
7. Даже при джейлбрейке модель распознает опасность
Джейлбрейки — это стратегии, направленные на обход защиты, чтобы заставить модели выдавать результаты, которые разработчик AI не планировал для них. В одном из тестов Claude попросили ответить на вредный вопрос, зашифровав его. Это достигается за счет признаков, унаследованных из файн-тюнинга, представляющих обобщенную категорию опасных инструкций.
Please open Telegram to view this post
VIEW IN TELEGRAM
Новая система охлаждения повысит энергоэффективность дата-центров 🌡
Инженеры Maxwell Labs в сотрудничестве с Sandia National Laboratories и Университетом Нью-Мексико разрабатывают лазерную систему охлаждения чипов, способную радикально снизить энергопотребление дата-центров. Технология основана на фотонном охлаждении: лазеры через специальную холодную фотонную пластину из арсенида галлия воздействуют на локальные горячие точки размером в несколько сотен микрометров.
Основным элементом системы является ультрачистая структура, выращенная методом молекулярно-лучевой эпитаксии (MBE), обеспечивающая атомарную точность нанесения слоев — уровень точности при создании или обработке материалов, при котором контроль осуществляется на масштабе отдельных атомов.
Такая архитектура позволяет не только эффективно снимать тепло с критических участков, но и работать на временных масштабах, характерных для оптики, — кардинально меняя тепловые ограничения традиционного чип-дизайна.
На данный момент 30–40% энергии, потребляемой центрами обработки данных, тратится на охлаждение. Текущие симуляции показывают, что лазерное охлаждение способно быть эффективнее водяных систем, не требуя значительных водных ресурсов. Авторы исследования отмечают, что технология может повысить производительность будущих архитектур процессоров, одновременно снижая тепловые ограничения в конструкции чипов.
Инженеры Maxwell Labs в сотрудничестве с Sandia National Laboratories и Университетом Нью-Мексико разрабатывают лазерную систему охлаждения чипов, способную радикально снизить энергопотребление дата-центров. Технология основана на фотонном охлаждении: лазеры через специальную холодную фотонную пластину из арсенида галлия воздействуют на локальные горячие точки размером в несколько сотен микрометров.
Основным элементом системы является ультрачистая структура, выращенная методом молекулярно-лучевой эпитаксии (MBE), обеспечивающая атомарную точность нанесения слоев — уровень точности при создании или обработке материалов, при котором контроль осуществляется на масштабе отдельных атомов.
Такая архитектура позволяет не только эффективно снимать тепло с критических участков, но и работать на временных масштабах, характерных для оптики, — кардинально меняя тепловые ограничения традиционного чип-дизайна.
На данный момент 30–40% энергии, потребляемой центрами обработки данных, тратится на охлаждение. Текущие симуляции показывают, что лазерное охлаждение способно быть эффективнее водяных систем, не требуя значительных водных ресурсов. Авторы исследования отмечают, что технология может повысить производительность будущих архитектур процессоров, одновременно снижая тепловые ограничения в конструкции чипов.
Please open Telegram to view this post
VIEW IN TELEGRAM