Вышла научная работа Google Deep Mind в сотрудничестве с Гарвардом и рядом других университетов, что показывает проверку результатов сразу в нескольких уважаемых организациях.
Работа затрагивает тему, где обычно много PR, но мало результатов, т.е. как именно GPT мыслит внутри. Исследователи стали решать на крошечной GPT из 2х слоев и всего 4х головок внимания задачу умножения 4х значных чисел внутри GPT, что обычные LLM не могут делать и им нужен калькулятор. Они научили GPT заниматься умножением без калькулятора внутри своего скрытого состояния, что уже прорыв, т.к. потенциально открывает путь с к смешанным арифметически-семантическим выводам ИИ, что сразу двери в те же бизнес-прогнозы более высокого качества, где нужно делать расчеты для них и точные.
Однако решая задачу, Google и Co много чего интересного раскопали. Для начала они сбавили уровень восторгов относительно способностей SLM через дистилляции реально научится сложной многошаговой логике. Метод SFT "с учителем" не только не достиг результата, но и GPT не мог за эмбеддингами сформировать однозначную сущность семантики цифры. Иными словами, тут косвенное подтверждение, что SLM все же больше "попугаи паттернов", хотя статья не про это. Однако показывают где именно это проявится - многошаговые действия как умножение N чисел "в столбик".
Пожалуй самая интригующая часть работы, что Google прямо перешел на "секретный трасформерский язык" с GPT, о котором я часто пишу. Они придумали ICoT (Implicit Chain-of-Thought), где логические рассуждения модели кодируются в больше в понятных для нее паттернах.
Однако ICoT они оставили только на этап обучения модели и довольно интересную с ним манипуляцию сделали. Если в обычном CoT "на языке кожаных" нельзя выбрасывать слова (токены) без нарушения смысла, то на "секретном трансформерском языке" можно, он поддерживает операцию сжатия семантики нативно. Иными словами, между эпохами обучения арифметике ICoT становился все короче, пока не стал равен... нулю, т.е. вся логика многошагового обучения вообще ушла в скрытое состояние GPT. Получилась GPT, которая владеет арифметикой 4х значных чисел со 100% точностью сама. Исследователи после этого залезли во внутрь своей маленькой GPT и смогли увидеть интересные детали.
Если "обучение зубрильщика" типичное и для дистилляций не формировало вообще каких-то признаков семантики чисел у эмбеддинов и GPT просто цифры воспринимало как буквы текста, то после ICoT в векторах эмбедингов сформировались однозначно дешифруемые признаки чисел через базис Фурье, т.е. эмбединги зашифровали не только сами числа, но и потенциально возможные функции с числами.
Работа нас сильно приблизила к пониманию ограничений моделей SLM на дистилляции и что многошаговые рассуждения для них самое сложное. Однако по факту была открыта технология нативных арифметических расчетов внутри GPT, что безусловно даст очень скоро эффекты в продакшен версиях GPT. На первый взгляд кажется, что это не очень нужно если есть какой Питон-калькулятор, но GPT может смешивать семантические и арифметические операции внутри своих расчетов в скрытом состоянии, для прогнозирования бизнес-планов - бесценно.
https://www.arxiv.org/abs/2510.00184
Работа затрагивает тему, где обычно много PR, но мало результатов, т.е. как именно GPT мыслит внутри. Исследователи стали решать на крошечной GPT из 2х слоев и всего 4х головок внимания задачу умножения 4х значных чисел внутри GPT, что обычные LLM не могут делать и им нужен калькулятор. Они научили GPT заниматься умножением без калькулятора внутри своего скрытого состояния, что уже прорыв, т.к. потенциально открывает путь с к смешанным арифметически-семантическим выводам ИИ, что сразу двери в те же бизнес-прогнозы более высокого качества, где нужно делать расчеты для них и точные.
Однако решая задачу, Google и Co много чего интересного раскопали. Для начала они сбавили уровень восторгов относительно способностей SLM через дистилляции реально научится сложной многошаговой логике. Метод SFT "с учителем" не только не достиг результата, но и GPT не мог за эмбеддингами сформировать однозначную сущность семантики цифры. Иными словами, тут косвенное подтверждение, что SLM все же больше "попугаи паттернов", хотя статья не про это. Однако показывают где именно это проявится - многошаговые действия как умножение N чисел "в столбик".
Пожалуй самая интригующая часть работы, что Google прямо перешел на "секретный трасформерский язык" с GPT, о котором я часто пишу. Они придумали ICoT (Implicit Chain-of-Thought), где логические рассуждения модели кодируются в больше в понятных для нее паттернах.
Однако ICoT они оставили только на этап обучения модели и довольно интересную с ним манипуляцию сделали. Если в обычном CoT "на языке кожаных" нельзя выбрасывать слова (токены) без нарушения смысла, то на "секретном трансформерском языке" можно, он поддерживает операцию сжатия семантики нативно. Иными словами, между эпохами обучения арифметике ICoT становился все короче, пока не стал равен... нулю, т.е. вся логика многошагового обучения вообще ушла в скрытое состояние GPT. Получилась GPT, которая владеет арифметикой 4х значных чисел со 100% точностью сама. Исследователи после этого залезли во внутрь своей маленькой GPT и смогли увидеть интересные детали.
Если "обучение зубрильщика" типичное и для дистилляций не формировало вообще каких-то признаков семантики чисел у эмбеддинов и GPT просто цифры воспринимало как буквы текста, то после ICoT в векторах эмбедингов сформировались однозначно дешифруемые признаки чисел через базис Фурье, т.е. эмбединги зашифровали не только сами числа, но и потенциально возможные функции с числами.
Работа нас сильно приблизила к пониманию ограничений моделей SLM на дистилляции и что многошаговые рассуждения для них самое сложное. Однако по факту была открыта технология нативных арифметических расчетов внутри GPT, что безусловно даст очень скоро эффекты в продакшен версиях GPT. На первый взгляд кажется, что это не очень нужно если есть какой Питон-калькулятор, но GPT может смешивать семантические и арифметические операции внутри своих расчетов в скрытом состоянии, для прогнозирования бизнес-планов - бесценно.
https://www.arxiv.org/abs/2510.00184
arXiv.org
Why Can't Transformers Learn Multiplication?...
Language models are increasingly capable, yet still fail at a seemingly simple task of multi-digit multiplication. In this work, we study why, by reverse-engineering a model that successfully...
❤14✍7🔥7👍2
На центральной ИИ конференции ICML 2025, Google представил новую технологию обучения GPT, что вероятно мы увидим в семействе Gemini через несколько месяцев, т.к. практическая ценность очень высокая.
Смысл в том, что Google разработал эффективную технологию прогнозирования временных рядов. Для этого GPT учится специальными токенами запоминать паттерны внутри графиков в различных технологических и бизнесовых процессах. Каждый токен по факту запоминает сплайн перегиба между 32 последовательных точек данных, что довольно точно.
Далее в модели можете показать few shots из своего бизнеса. Например, какие у вас сейчас графики продаж разных товаров, а GPT вам вернет модели продаж на основании распознанных паттернов сбыта.
Само по себе такое моделирование не новость, но текущие методы построения трендов в будущее обычно не строятся явно на обучении именно паттернам "патчей" графиков и не умеют хорошо реагировать на few shots.
https://research.google/blog/time-series-foundation-models-can-be-few-shot-learners
Смысл в том, что Google разработал эффективную технологию прогнозирования временных рядов. Для этого GPT учится специальными токенами запоминать паттерны внутри графиков в различных технологических и бизнесовых процессах. Каждый токен по факту запоминает сплайн перегиба между 32 последовательных точек данных, что довольно точно.
Далее в модели можете показать few shots из своего бизнеса. Например, какие у вас сейчас графики продаж разных товаров, а GPT вам вернет модели продаж на основании распознанных паттернов сбыта.
Само по себе такое моделирование не новость, но текущие методы построения трендов в будущее обычно не строятся явно на обучении именно паттернам "патчей" графиков и не умеют хорошо реагировать на few shots.
https://research.google/blog/time-series-foundation-models-can-be-few-shot-learners
👍12❤7
Илон Маск заявил, что бета Grokipedia выйдет через 2 недели, хотя он известен срывами сроков, но скорее тут реалистичная оценка. Это не GPT создать, задача проще.
Однако влияние на мир ИИ проекта Маска может оказаться намного больше, чем кажется. Не секрет, что Википедия по факту до сих пор ядро обучения общим знаниям в LLM, хотя содержит огромное количество фактических ошибок и маргинальных теорий, написанных дилетантами.
Для крупной GPT как Grok не сверхзадача переписать Wikipedia и еще через RAG базу сделать fact check по научным статьям.
Но самый важный момент для бизнеса ИИ получится в том, что Маск на деле сделает крайне очищенный от мусора кожаных data set по основным знаниям.
У меня мало сомнений, что другие вендоры ИИ моментально откажутся от Википедии как менее надежного источника знаний и перейдут на Grokipedia.
Маск так может получить и мегапосещаемый сайт и реально контролировать ядро обучения современных LLM.
Конечно все можно испортить кривой реализацией. В России недавно списали в убыток несколько миллиардов рублей провальных проектов по замене Википедии. Однако Маск другого уровня менеджер и у него есть Grok.
Очень может быть, что мир LLM и наших общих знаний станет заметно другим через 2 недели.
https://x.com/elonmusk/status/1974698202625679361
Однако влияние на мир ИИ проекта Маска может оказаться намного больше, чем кажется. Не секрет, что Википедия по факту до сих пор ядро обучения общим знаниям в LLM, хотя содержит огромное количество фактических ошибок и маргинальных теорий, написанных дилетантами.
Для крупной GPT как Grok не сверхзадача переписать Wikipedia и еще через RAG базу сделать fact check по научным статьям.
Но самый важный момент для бизнеса ИИ получится в том, что Маск на деле сделает крайне очищенный от мусора кожаных data set по основным знаниям.
У меня мало сомнений, что другие вендоры ИИ моментально откажутся от Википедии как менее надежного источника знаний и перейдут на Grokipedia.
Маск так может получить и мегапосещаемый сайт и реально контролировать ядро обучения современных LLM.
Конечно все можно испортить кривой реализацией. В России недавно списали в убыток несколько миллиардов рублей провальных проектов по замене Википедии. Однако Маск другого уровня менеджер и у него есть Grok.
Очень может быть, что мир LLM и наших общих знаний станет заметно другим через 2 недели.
https://x.com/elonmusk/status/1974698202625679361
🔥19❤6🏆4👀4🤔2
Financial Times пишет о том, что глубокая коррекция на рынке ИИ компаний может произойти в ближайшее время.
Основной риск FT тут видит скорее для компаний в районе разработки GPU как Nvidia, т.к. перегрев рынка ЦОД для ИИ сам по себе может еще вызвать обвал за счет китайских игроков как Deep Seek или K2, которые в фокусе держат технологии обучения ИИ на низких затратах. Тут намек на обвал NASDAQ на 1 триллион долларов после выхода Deep Seek R1.
Однако сами инвесторы совершенно не спешат распродавать акции ИИ компаний, несмотря на весь этот алармизм. Реально идет распродажа акций добывающего сектора.
Дело в том, что прогнозы финансистов базируются на двух гипотезах:
- Именно финансовые потоки определяют поведение рынка, а не технологии
- Кризис ИИ будет напоминать кризис "доткомов"
Проблема в том, что обе гипотезы имеют изъяны. Масштаб технологической революции от ИИ скорее напоминает Промышленную революцию XIX века, даже модели XX века тут спорные, т.к. финансы - это операции бизнеса, но в конце находятся реальные товары и услуги, а они производные именно технологий.
Доткомы обобщает с бизнесом ИИ скорее, что ИИ имеет много облачных технологий, но далее сходства сомнительные. При доткоме самой ценной идеей была продажа чего-то вроде OZON или поисковика Google. Обычно у компаний не было активов. В случае ИИ продается идея замены персонала на ботов, что уже частично работает. У ИИ компаний есть активы, как раз эти гигантские ЦОД, которые даже при банкротстве не исчезнут, а просто сменят владельцев.
Есть существенный еще стратегический фактор, который не на уровне Уолл-Стрит, а на уровне Правительств. ИИ как стратегическая технология может открывать путь к власти над другими государствами, которые будут зависимы от государств в которых вендоры ИИ. Поэтому тут мощная правительственная поддержка в КНР, а также включится и в США. Просто вряд ли Белый Дом допустит, чтобы в результате коррекции США превратились в "ИИ колонию Китая". Более вероятно, заливание около 1 триллиона долларов в какой биржевый пожар.
https://www.ft.com/content/c7b9453e-f528-4fc3-9bbd-3dbd369041be
Основной риск FT тут видит скорее для компаний в районе разработки GPU как Nvidia, т.к. перегрев рынка ЦОД для ИИ сам по себе может еще вызвать обвал за счет китайских игроков как Deep Seek или K2, которые в фокусе держат технологии обучения ИИ на низких затратах. Тут намек на обвал NASDAQ на 1 триллион долларов после выхода Deep Seek R1.
Однако сами инвесторы совершенно не спешат распродавать акции ИИ компаний, несмотря на весь этот алармизм. Реально идет распродажа акций добывающего сектора.
Дело в том, что прогнозы финансистов базируются на двух гипотезах:
- Именно финансовые потоки определяют поведение рынка, а не технологии
- Кризис ИИ будет напоминать кризис "доткомов"
Проблема в том, что обе гипотезы имеют изъяны. Масштаб технологической революции от ИИ скорее напоминает Промышленную революцию XIX века, даже модели XX века тут спорные, т.к. финансы - это операции бизнеса, но в конце находятся реальные товары и услуги, а они производные именно технологий.
Доткомы обобщает с бизнесом ИИ скорее, что ИИ имеет много облачных технологий, но далее сходства сомнительные. При доткоме самой ценной идеей была продажа чего-то вроде OZON или поисковика Google. Обычно у компаний не было активов. В случае ИИ продается идея замены персонала на ботов, что уже частично работает. У ИИ компаний есть активы, как раз эти гигантские ЦОД, которые даже при банкротстве не исчезнут, а просто сменят владельцев.
Есть существенный еще стратегический фактор, который не на уровне Уолл-Стрит, а на уровне Правительств. ИИ как стратегическая технология может открывать путь к власти над другими государствами, которые будут зависимы от государств в которых вендоры ИИ. Поэтому тут мощная правительственная поддержка в КНР, а также включится и в США. Просто вряд ли Белый Дом допустит, чтобы в результате коррекции США превратились в "ИИ колонию Китая". Более вероятно, заливание около 1 триллиона долларов в какой биржевый пожар.
https://www.ft.com/content/c7b9453e-f528-4fc3-9bbd-3dbd369041be
Ft
The AI capex endgame is approaching
The rapid building of excess capacity both extends bubbles and ultimately bursts them
🔥8✍4❤4🤷♂1👍1💯1
Microsoft выпустил свой фреймворк агентов. В основе оркестровка нескольких агентов и плагинная архитектура. Довольно четко виден тренд на управление группами агентов.
https://github.com/microsoft/agent-framework
https://github.com/microsoft/agent-framework
GitHub
GitHub - microsoft/agent-framework: A framework for building, orchestrating and deploying AI agents and multi-agent workflows with…
A framework for building, orchestrating and deploying AI agents and multi-agent workflows with support for Python and .NET. - microsoft/agent-framework
👍16
В западных пабликах активно обсуждают есть ли "ИИ пузырь" или нет. Алармистов тут еще удивляет, что несмотря на их истерию, инвесторы все равно продолжают везти самосвалы денег в ИИ компании.
Основной момент тут на деле заключается в том, что инвесторы верят, что к моменту когда инвестиции в CAPEX для ЦОД по ИИ иссякнут, то ИИ просто уже выскочит в прибыльность.
Иными словами, инвесторы ставят на то, что ИИ компании "выиграют гонку со временем" и успеют выйти в прибыль, пока у инвесторов не станут кончаться деньги. Тому есть важные доводы и технологические и финансовые. Если брать Google, Nvidia и Microsoft, то для них ИИ уже прибыльный бизнес и прибыль от ИИ у них быстро растет.
Скорее вопрос успеют ли выиграть "гонку со временем" Open AI и Anthropic. Они убыточны, поэтому и не вышли на NASDAQ. Предположим, что у инвесторов просто кончились свободные деньги на CAPEX, а Open AI и Anthropic все еще убыточные, что тогда?
Тогда и будет кризис, но он будет не крах Open AI и Anthropic.
Основное что путают алармисты, что ни смешивают судьбу инвесторов в ИИ и сами ИИ компании. Это РАЗНЫЕ судьбы.
Если рынок ИИ обвалится, то прибыльным игрокам как Google, Nvidia и Microsoft на деле это не такая проблема. Они существуют на реальные доходы, а не на деньги инвесторов. Поэтому пострадают инвесторы, которые покупали акции Google и Nvidia.
В случае Anthropic и Open AI они без денег инвесторов существовать не могут, поэтому при кризисе понятно что будет. Open AI за копейки просто поглотит Microsoft, а Альтман пойдет работать в Макдак. Сам Anthropic скорее купит тот же Google или Amazon, которые реально и хостируют Claude.
Тут стоит вспомнить как раз промышленную революцию XIX века с "коллапсом" железнодорожных компаний в США и Великобритании. Инвесторы в железные дороги стали нищими от их избыточного и дублирующего строительства. Их ЖД дороги скупили за копейки прибыльные ЖД компании, после чего начался бум экономики в США и Великобритании, т.к. чудаки-инвесторы подарили странам великолепную инфраструктуру.
С ИИ может быть в кризисе такая же ситуация. Инвесторы как альтруисты могут профинансировать нам всем дешевые ЦОД для ИИ, которые и станут нам средством обогащения, а для них разорением.
Однако пока инвесторы верят, что ИИ компании "выигрывают гонку со временем" и рассматривают свои расходы как необходимую плату за победу на рынке. На деле если этот сценарий сработает и без сильной коррекции ИИ выскочит к 2030 в прибыльный бизнес, то инвесторы же профит снова вложат в ИИ компании и сработает "кумулятивный эффект", тогда в 2030х от старых экономических моделей останутся рожки, да ножки.
Вся инфраструктура будет переделана под ИИ за два успешных экономических цикла его внедрения.
#гонкасовременем
Основной момент тут на деле заключается в том, что инвесторы верят, что к моменту когда инвестиции в CAPEX для ЦОД по ИИ иссякнут, то ИИ просто уже выскочит в прибыльность.
Иными словами, инвесторы ставят на то, что ИИ компании "выиграют гонку со временем" и успеют выйти в прибыль, пока у инвесторов не станут кончаться деньги. Тому есть важные доводы и технологические и финансовые. Если брать Google, Nvidia и Microsoft, то для них ИИ уже прибыльный бизнес и прибыль от ИИ у них быстро растет.
Скорее вопрос успеют ли выиграть "гонку со временем" Open AI и Anthropic. Они убыточны, поэтому и не вышли на NASDAQ. Предположим, что у инвесторов просто кончились свободные деньги на CAPEX, а Open AI и Anthropic все еще убыточные, что тогда?
Тогда и будет кризис, но он будет не крах Open AI и Anthropic.
Основное что путают алармисты, что ни смешивают судьбу инвесторов в ИИ и сами ИИ компании. Это РАЗНЫЕ судьбы.
Если рынок ИИ обвалится, то прибыльным игрокам как Google, Nvidia и Microsoft на деле это не такая проблема. Они существуют на реальные доходы, а не на деньги инвесторов. Поэтому пострадают инвесторы, которые покупали акции Google и Nvidia.
В случае Anthropic и Open AI они без денег инвесторов существовать не могут, поэтому при кризисе понятно что будет. Open AI за копейки просто поглотит Microsoft, а Альтман пойдет работать в Макдак. Сам Anthropic скорее купит тот же Google или Amazon, которые реально и хостируют Claude.
Тут стоит вспомнить как раз промышленную революцию XIX века с "коллапсом" железнодорожных компаний в США и Великобритании. Инвесторы в железные дороги стали нищими от их избыточного и дублирующего строительства. Их ЖД дороги скупили за копейки прибыльные ЖД компании, после чего начался бум экономики в США и Великобритании, т.к. чудаки-инвесторы подарили странам великолепную инфраструктуру.
С ИИ может быть в кризисе такая же ситуация. Инвесторы как альтруисты могут профинансировать нам всем дешевые ЦОД для ИИ, которые и станут нам средством обогащения, а для них разорением.
Однако пока инвесторы верят, что ИИ компании "выигрывают гонку со временем" и рассматривают свои расходы как необходимую плату за победу на рынке. На деле если этот сценарий сработает и без сильной коррекции ИИ выскочит к 2030 в прибыльный бизнес, то инвесторы же профит снова вложат в ИИ компании и сработает "кумулятивный эффект", тогда в 2030х от старых экономических моделей останутся рожки, да ножки.
Вся инфраструктура будет переделана под ИИ за два успешных экономических цикла его внедрения.
#гонкасовременем
2👍17🤔5❤1🏆1
В западных пабликах по ИИ сейчас интересные холивары из ИИ специалистов "первой волны" и "вторая волна" ИИ разработчиков, что пришла сейчас. Специалисты "первой волны" больше энтузиасты в обучении ИИ, чаще это не ученые, а скорее специалисты у которых ИИ было хобби и они собирали любительские модели на обучение и думали, что именно так и будут дальше выглядеть ИИ внедрения.
Они [хобби-обучатели] ошиблись.
Тему обучения LLM забрали себе крупные вендоры, даже вендорам второго эшелона как Сбер или Yandex нужно доказывать целесообразность финансирования проектов GigaChat или Yandex GPT дальше при наличии открытых весов DeepSeek и Qwen, что там говорить об энтузиастах.
ИИ-специалисты "второй волны" больше заточены не на обучение, а на использование готовых LLM. Обычно в их фокусе создание различных ИИ агентов для программирования, RAG, бизнес-процессов и т.п.
Однако "старожилам" сложно принять, что если их не взяли на работу в Google Deep Mind, то их вложения времени в обучение ИИ пошли прахом, они настаивают, что ниши для обучения ИИ остались в тех же LoRa или еще каком fine tuning.
И тут неприятные новости от Google, как раз. Google Research доказал в этой научной работе, что GPT имеет in-context learning (ICL), где ПОЛНЫМ аналогом весов нейросети становятся динамические веса Attention матрицы. Иными словами, те же LoRa бессмысленные, если вы умете правильно делать ICL, т.к. математически это еще мощнее мелких правок весов. Для ICL наблюдаются эквивалентные поведения как и градиентный спуск и т.п.
Если Google прав, что для "партии обучателей" дела совсем плохи, парни c нормальными few shots легко уделают их.
https://arxiv.org/abs/2507.16003v1
Они [хобби-обучатели] ошиблись.
Тему обучения LLM забрали себе крупные вендоры, даже вендорам второго эшелона как Сбер или Yandex нужно доказывать целесообразность финансирования проектов GigaChat или Yandex GPT дальше при наличии открытых весов DeepSeek и Qwen, что там говорить об энтузиастах.
ИИ-специалисты "второй волны" больше заточены не на обучение, а на использование готовых LLM. Обычно в их фокусе создание различных ИИ агентов для программирования, RAG, бизнес-процессов и т.п.
Однако "старожилам" сложно принять, что если их не взяли на работу в Google Deep Mind, то их вложения времени в обучение ИИ пошли прахом, они настаивают, что ниши для обучения ИИ остались в тех же LoRa или еще каком fine tuning.
И тут неприятные новости от Google, как раз. Google Research доказал в этой научной работе, что GPT имеет in-context learning (ICL), где ПОЛНЫМ аналогом весов нейросети становятся динамические веса Attention матрицы. Иными словами, те же LoRa бессмысленные, если вы умете правильно делать ICL, т.к. математически это еще мощнее мелких правок весов. Для ICL наблюдаются эквивалентные поведения как и градиентный спуск и т.п.
Если Google прав, что для "партии обучателей" дела совсем плохи, парни c нормальными few shots легко уделают их.
https://arxiv.org/abs/2507.16003v1
arXiv.org
Learning without training: The implicit dynamics of in-context learning
One of the most striking features of Large Language Models (LLM) is their ability to learn in context. Namely at inference time an LLM is able to learn new patterns without any additional weight...
👍11🤔7❤1
Юзабилити - наше все.
Альтман заплатил $6,5 млрд долларов автору концепции дизайна iPhone и iPad - легендарному Джонни Айву.
Джонни Айв с 20 бывшими коллегами из Apple делает для Open AI какой-то секретный персональный ИИ гаджет про который только известно, что это ИИ ассистент и у него не будет экрана, т.к. новое устройство и скорее речевой коммуникации.
Презентация девайса запланирована на 2026 год.
https://www.ft.com/content/58b078be-e0ab-492f-9dbf-c2fe67298dd3
Альтман заплатил $6,5 млрд долларов автору концепции дизайна iPhone и iPad - легендарному Джонни Айву.
Джонни Айв с 20 бывшими коллегами из Apple делает для Open AI какой-то секретный персональный ИИ гаджет про который только известно, что это ИИ ассистент и у него не будет экрана, т.к. новое устройство и скорее речевой коммуникации.
Презентация девайса запланирована на 2026 год.
https://www.ft.com/content/58b078be-e0ab-492f-9dbf-c2fe67298dd3
Ft
OpenAI and Jony Ive grapple with technical issues on secretive AI device
ChatGPT maker is working with former Apple design boss to launch a palm-sized personal assistant next year
🤯9❤2🤷♂1
Сейчас идет целый поток научных публикаций насчет борьбы с галлюцинациями у ИИ. Я постепенно дам их обзор, но сначала сделаю ремарку - не спешите за очередной методикой как "серебрянной пулей", их на деле очень много. Часть методик по борьбе с галлюцинациями вы и повторить вообще не сможете, а вот вендор LLM легко разломает вам какую вашу кулибинщину по борьбе с галлюцинациями, просто обновив свой продукт.
Apple раскрыл часть новой технологии обучения LLM в борьбе с галлюцинациями и наверняка это уже "Секрет Полишинеля" и тоже самое сейчас вы увидите в новых Gemini или Claude.
Идея заключается во внедрении защиты от галлюцинаций в сам процесс reinforcement learning. В CoT модели на обучении включается требование на рефлексию на предмет галлюцинаций. У Apple это делается через фреймворк RL4HS (Reinforcement Learning for Hallucination Span Detection) и функции награды на основе span-F1 метрики.
span-F1 дает модели высокую оценку не только за понимание, что была галлюцинация, но из локализацию ее в рассуждениях. Потом через GRPO это добавляется во взвешенные оценки по всему обучению.
Что это значит? Скорее всего, новые LLM смогут делать необычные рассуждения, когда сами будут указывать вам, что они заметили, что придумали какие-то факты и сами исправлять это своими рассуждениями дальше.
Наличие такого механизма стоит уже учитывать, если вы еще проектируете решение. Пока вы его делаете, это скорее всего уже будет обычной практикой у вендоров ИИ.
https://arxiv.org/abs/2510.02173v1
Apple раскрыл часть новой технологии обучения LLM в борьбе с галлюцинациями и наверняка это уже "Секрет Полишинеля" и тоже самое сейчас вы увидите в новых Gemini или Claude.
Идея заключается во внедрении защиты от галлюцинаций в сам процесс reinforcement learning. В CoT модели на обучении включается требование на рефлексию на предмет галлюцинаций. У Apple это делается через фреймворк RL4HS (Reinforcement Learning for Hallucination Span Detection) и функции награды на основе span-F1 метрики.
span-F1 дает модели высокую оценку не только за понимание, что была галлюцинация, но из локализацию ее в рассуждениях. Потом через GRPO это добавляется во взвешенные оценки по всему обучению.
Что это значит? Скорее всего, новые LLM смогут делать необычные рассуждения, когда сами будут указывать вам, что они заметили, что придумали какие-то факты и сами исправлять это своими рассуждениями дальше.
Наличие такого механизма стоит уже учитывать, если вы еще проектируете решение. Пока вы его делаете, это скорее всего уже будет обычной практикой у вендоров ИИ.
https://arxiv.org/abs/2510.02173v1
arXiv.org
Learning to Reason for Hallucination Span Detection
Large language models (LLMs) often generate hallucinations -- unsupported content that undermines reliability. While most prior works frame hallucination detection as a binary task, many...
🔥17❤7👍2
Google предлагает через X присоединится к их мероприятию 9 октября. Очень вероятно, что это будет презентация Gemini 3, который появляется уже в тестах в AI Studio у части пользователей. Они отмечают улучшение в генерации кода и очень большой прогресс в генерации SVG изображений. Видно также, что Google тестирует агента Gemini для Chrome, он уже готов, но доступен в части стран.
https://x.com/i/events/1971268821194280960
https://x.com/i/events/1971268821194280960
X (formerly Twitter)
Gemini at Work
Are you ready to take your business to the next level with Google AI?
On October 9 at 10am PT, join Google Cloud CEO Thomas Kurian and other experts who are redefining what’s possible with Gemini at work.
On October 9 at 10am PT, join Google Cloud CEO Thomas Kurian and other experts who are redefining what’s possible with Gemini at work.
🔥18👍6
Ахах... Deloitte попался на том, что изготавливает заключения не людьми, а с помощью ИИ ботов. Для урегулирования скандала с клиентом как Правительство Австралии согласился выплатить $440.000😎
Как всегда, если бы не мелкие галлюцинации ИИ, то никто бы ничего не заметил и не доказал. Интересно на сколько миллиардов уже бумажек клиентам Deloitte написали какие Gemini и Claude. С учетом таких еще вложений вендоров в сокращения галлюцинаций ИИ, скоро там будет очень сложно ловить GPT на авторстве.
С другой стороны, Deloitte может уже гордится тем, что внедрил AI в реальный бизнес консалтинга. Только что на работе тогда у него делает столько лоботрясов, если пишут отчеты уже ИИ боты за них?
https://www.afr.com/companies/professional-services/deloitte-to-refund-government-after-admitting-ai-errors-in-440k-report-20251005-p5n05p
Как всегда, если бы не мелкие галлюцинации ИИ, то никто бы ничего не заметил и не доказал. Интересно на сколько миллиардов уже бумажек клиентам Deloitte написали какие Gemini и Claude. С учетом таких еще вложений вендоров в сокращения галлюцинаций ИИ, скоро там будет очень сложно ловить GPT на авторстве.
С другой стороны, Deloitte может уже гордится тем, что внедрил AI в реальный бизнес консалтинга. Только что на работе тогда у него делает столько лоботрясов, если пишут отчеты уже ИИ боты за них?
https://www.afr.com/companies/professional-services/deloitte-to-refund-government-after-admitting-ai-errors-in-440k-report-20251005-p5n05p
Australian Financial Review
Deloitte to refund government, admits using AI in $440k report
Deloitte will issue a partial refund to the government after admitting that artificial intelligence had been used in the creation of a report littered with errors.
🔥8👍6
На тему всех ИИ пузырей. Крайне интересный момент кому же принадлежат безумные активы в ЦОД для ИИ.
Вообще-то ими владеют xAI, Oracle, Meta, Google и Microsoft. Отчасти они строят их на деньги инвесторов продавая свои небольшие кусочки в виде акций.
Что будет в случае "Пузыря" о котором кричат алармисты? Если бы это был какой Open AI, то реальный был бы сценарий и банкротства, а судьба ЦОД как актива могла бы быть очень разной в сценариях эксплуатации.
Однако "банду пятерых" из IT гигантов США обанкротить нельзя, поэтому в случае пузыря у них останутся эти ЦОД на 1 триллион долларов, а акционерам достанутся бумажки обесценившихся акций. Сами Google и Microsoft продолжат пользоваться этими суперкластерами и дальше как ни в чем небывало.
Если такой "Пузырь" и случится, то скорее это надо будет назвать "Аферой века", как построить мощности ИИ для всей планеты за 1 триллион долларов нахаляву 🤪
Вообще-то ими владеют xAI, Oracle, Meta, Google и Microsoft. Отчасти они строят их на деньги инвесторов продавая свои небольшие кусочки в виде акций.
Что будет в случае "Пузыря" о котором кричат алармисты? Если бы это был какой Open AI, то реальный был бы сценарий и банкротства, а судьба ЦОД как актива могла бы быть очень разной в сценариях эксплуатации.
Однако "банду пятерых" из IT гигантов США обанкротить нельзя, поэтому в случае пузыря у них останутся эти ЦОД на 1 триллион долларов, а акционерам достанутся бумажки обесценившихся акций. Сами Google и Microsoft продолжат пользоваться этими суперкластерами и дальше как ни в чем небывало.
Если такой "Пузырь" и случится, то скорее это надо будет назвать "Аферой века", как построить мощности ИИ для всей планеты за 1 триллион долларов нахаляву 🤪
🔥29👍1
По теме всего ИТ не только ИИ. С 2026 года резко повысится налоговая нагрузка на ИТ отрасль. Естественно, ИТ компании переложат бремя налоговой нагрузки на покупателей. Это приведет к увеличению стоимости услуг и продуктов в ИТ далеко опережая инфляцию. Вместе с ней я бы только базовое подорожание в рублях оценил от 30%. С учетом ажиотажного спроса в части сегментов ИТ как в ИИ, так это может стать вообще скачком цен непонятно куда.
Что тут будет происходить. Наиболее чувствительным будет снижение порога УСН с 60 до 10 миллионов рублей. Значительная часть даже крупных ИТ фирм работают через УСН как "группы компаний". Автоматически это означает уплату НДС, хотя и по сниженной ставке.
Будут ликвидированы "российские офшоры" в Дагестане и Калмыкии, где ранее был 1% символический налог, но немало там находилось ИТ регистраций.
Ранее социальные налоги были 15%, теперь вырастут до 30% для ИТ компаний.
Российский софт и так был не сильно конкурентен, но пользователям GigaChat и Yandex GPT начислят еще 22% налогов, но Сберу и Яндексу нужно компенсировать и социальные налоги. Я думаю, что станет фактором усиления миграции на иностранных поставщиков и большее количество локальных инсталляций в пользу Qwen и Deep Seek. Позиции российского ИИ определенно новые налоги ослабят.
Все это еще на фоне того, что будет введено много новых акцизов. Это создает огромное инфляционное давление, на ЦБ РФ еще давят, чтобы он "помог экономике" и снизил процентную ставку. В реальности это сразу вольет спекулятивный капитал играющий против рубля, надежда на Эльвиру, которая сильно больше думает других, но не она все решает.
Так или иначе, нужно быть готовым к тому, что инфляция может улететь в пике. Если есть возможность законтрактовать что-то в ИТ, то лучше делать до конца года, т.к. повышение цен на ИТ продукцию будет галопирующим.
https://allo.tochka.com/nalogovaya-reforma-2026
Что тут будет происходить. Наиболее чувствительным будет снижение порога УСН с 60 до 10 миллионов рублей. Значительная часть даже крупных ИТ фирм работают через УСН как "группы компаний". Автоматически это означает уплату НДС, хотя и по сниженной ставке.
Будут ликвидированы "российские офшоры" в Дагестане и Калмыкии, где ранее был 1% символический налог, но немало там находилось ИТ регистраций.
Ранее социальные налоги были 15%, теперь вырастут до 30% для ИТ компаний.
Российский софт и так был не сильно конкурентен, но пользователям GigaChat и Yandex GPT начислят еще 22% налогов, но Сберу и Яндексу нужно компенсировать и социальные налоги. Я думаю, что станет фактором усиления миграции на иностранных поставщиков и большее количество локальных инсталляций в пользу Qwen и Deep Seek. Позиции российского ИИ определенно новые налоги ослабят.
Все это еще на фоне того, что будет введено много новых акцизов. Это создает огромное инфляционное давление, на ЦБ РФ еще давят, чтобы он "помог экономике" и снизил процентную ставку. В реальности это сразу вольет спекулятивный капитал играющий против рубля, надежда на Эльвиру, которая сильно больше думает других, но не она все решает.
Так или иначе, нужно быть готовым к тому, что инфляция может улететь в пике. Если есть возможность законтрактовать что-то в ИТ, то лучше делать до конца года, т.к. повышение цен на ИТ продукцию будет галопирующим.
https://allo.tochka.com/nalogovaya-reforma-2026
Tochka
Налоговая реформа 2026: НДС от 10 млн, торговый сбор для розницы в Москве, снижение лимитов на патенте
Узнайте о радикальных изменениях, которые могут затронуть НДС, патент, УСН и страховые взносы
✍16👍5🔥3🤷♂1
Насчет сделки Open AI и AMD, она довольно ожидаемая, если вы следили за статистикой суперкластеров ИИ.
В реальности AMD очень быстро вытесняет там Intel в традиционных процессорах, а в TPU только AMD заметен с небольшой долей после Nvidia.
Intel сейчас почти в 3 раза меньше по капитализации, чем AMD.
Как профукать все полимеры - это про Intel
В реальности AMD очень быстро вытесняет там Intel в традиционных процессорах, а в TPU только AMD заметен с небольшой долей после Nvidia.
Intel сейчас почти в 3 раза меньше по капитализации, чем AMD.
Как профукать все полимеры - это про Intel
🔥18👍6
Как и обещал, продолжим освещать новые публикации по галлюцинациям. "Review of Hallucination Understanding in Large Language and Vision Models" впервые заглядывает в механизмы галлюцинаций глубже чем обычно и предлагает их классификацию через унифицированную многоуровневую структуру (MOWI) на уровне Модели, Наблюдателя и Мира.
Значительная часть работ по галлюцинациям либо сложно применяется практически, либо все скатывается в кулибинщину. Однако в этой работе впервые доказывается, что важнейший фактор влияющий на уровень галлюцинаций модели - это few shots примеры, а совсем не CoT даже. Без few shots примеров или с низким качеством примеров модель легко может уйти в область где плохо обучена. Причем КАЧЕСТВО примеров для моделей играет ключевую роль в борьбе с галлюцинациями, особенно если от модели требуется сделать многошаговые действия.
У своем фреймворке FLEX для SLM я как раз применил интенсивный few shots метод как раз для снижения галюцинирования модели и выбора из-за этого неправильных Tools. Для высокого качества few shots они генерируются в LLM как Gemini и для облегчения считывания SLM оформляются в виде XML по специальным промптам. В своей работе я опирался на доказательства эффективности как контроль логитов.
Сейчас вес качественных few shots в борьбе с галлюцинациями резко вырос в свете этой работы.
https://arxiv.org/abs/2510.00034
Значительная часть работ по галлюцинациям либо сложно применяется практически, либо все скатывается в кулибинщину. Однако в этой работе впервые доказывается, что важнейший фактор влияющий на уровень галлюцинаций модели - это few shots примеры, а совсем не CoT даже. Без few shots примеров или с низким качеством примеров модель легко может уйти в область где плохо обучена. Причем КАЧЕСТВО примеров для моделей играет ключевую роль в борьбе с галлюцинациями, особенно если от модели требуется сделать многошаговые действия.
У своем фреймворке FLEX для SLM я как раз применил интенсивный few shots метод как раз для снижения галюцинирования модели и выбора из-за этого неправильных Tools. Для высокого качества few shots они генерируются в LLM как Gemini и для облегчения считывания SLM оформляются в виде XML по специальным промптам. В своей работе я опирался на доказательства эффективности как контроль логитов.
Сейчас вес качественных few shots в борьбе с галлюцинациями резко вырос в свете этой работы.
https://arxiv.org/abs/2510.00034
arXiv.org
Review of Hallucination Understanding in Large Language and Vision Models
The widespread adoption of large language and vision models in real-world applications has made urgent the need to address hallucinations -- instances where models produce incorrect or nonsensical...
👍15❤4
На OpenAI DevDay был представлен AgentKit. Сейчас все резко занялись фреймворками для агентов. При этом из фокуса испарилась основная сложность написания агентов:
- Какие инструкции (гайды) давать агентам?
- Какие Tools нужны агентам?
Строго говоря, уже оркестрация N агентов давно не rocket science, а скорее вопрос по каким правилам и на каких инструментах этот оркестр игроков должен играть? Все это еще имеет явную отраслевую специфику часто, что отражается и в TAU-тестах агентов.
Конечно и OpenAI и Microsoft и Google хотят, чтобы мы хостировали своих агентов у них, но это их потребность, потребность готовых отраслевых решений отличается. Мне кажется пошел сильный перекос в платформенные горизонтальные решения.
Кто конечные-то решения для клиентов будет делать? Там тоже нужны методологии и инструменты, но вертикального толка.
https://openai.com/index/introducing-agentkit/
- Какие инструкции (гайды) давать агентам?
- Какие Tools нужны агентам?
Строго говоря, уже оркестрация N агентов давно не rocket science, а скорее вопрос по каким правилам и на каких инструментах этот оркестр игроков должен играть? Все это еще имеет явную отраслевую специфику часто, что отражается и в TAU-тестах агентов.
Конечно и OpenAI и Microsoft и Google хотят, чтобы мы хостировали своих агентов у них, но это их потребность, потребность готовых отраслевых решений отличается. Мне кажется пошел сильный перекос в платформенные горизонтальные решения.
Кто конечные-то решения для клиентов будет делать? Там тоже нужны методологии и инструменты, но вертикального толка.
https://openai.com/index/introducing-agentkit/
Openai
Introducing AgentKit
New tools for building, deploying, and optimizing agents.
👍10👀1
Есть некоторая подвижка в обучении SLM через настоящий Reinforcement Learning (RL), а не "дрессированного попугая" на дистилляции.
LLM обычно обучают через максимизацию комплексной оценки такого вида:
R = w1* r1 + w2* r2+...
где r — награды за отдельные аспекты (достижение целей пользователя, корректность кода, безопасность, эмпатия и т.д.), а w - веса наград.
Такие оценки чаще дает специальная нейросеть-оценщик и некоторое количество кейсов оценивают люди вручную.
В случае SLM проблемы тут две. Первая - цена. Дистилляция в 10 раз дешевле, чем RL. Вторая проблема, что SLM даже на 4B параметров "слишком тупая" и не может на обучении понять такую комплексную оценку - обучение разваливается. Вторая причина на деле основная даже.
Есть известная британская команда Gensyn, которые специализируются на децентрализованном обучении ИИ в решениях напоминающих федеративные (независимые) кластеры. Они предложили метод Swarm sAmpling Policy Optimization (SAPO). Им удалось SLM как Qwen даже менее 1B параметров заставить реагировать на одну RL оценку, но только грубую - 0 или 1. Потом они организовали множество разных обучений SLM в разных узлах кластера. За счет параллелизма очень быстро обучили много таких вариантов SLM на разные аспекты и получили отличное прохождение тестов в каждом отдельном случае, что намного лучше, чем дистилляция. Но самое главное, что SLM на RL уже может реагировать как настоящий LLM на необычные ситуации.
Осталось дело за небольшим, как склеить эту "стаю" SLM в один продукт?
В статье намечен путь. Экземпляры SLM "делятся опытом", т.е. если один экземпляр решил задачу, то расшаривает по кластеру решение и другие узлы берут себе его в обучение. Поэтому в итоге получается несколько разных, но генерализированных экземпляров SLM.
https://arxiv.org/abs/2509.08721v1
LLM обычно обучают через максимизацию комплексной оценки такого вида:
R = w1* r1 + w2* r2+...
где r — награды за отдельные аспекты (достижение целей пользователя, корректность кода, безопасность, эмпатия и т.д.), а w - веса наград.
Такие оценки чаще дает специальная нейросеть-оценщик и некоторое количество кейсов оценивают люди вручную.
В случае SLM проблемы тут две. Первая - цена. Дистилляция в 10 раз дешевле, чем RL. Вторая проблема, что SLM даже на 4B параметров "слишком тупая" и не может на обучении понять такую комплексную оценку - обучение разваливается. Вторая причина на деле основная даже.
Есть известная британская команда Gensyn, которые специализируются на децентрализованном обучении ИИ в решениях напоминающих федеративные (независимые) кластеры. Они предложили метод Swarm sAmpling Policy Optimization (SAPO). Им удалось SLM как Qwen даже менее 1B параметров заставить реагировать на одну RL оценку, но только грубую - 0 или 1. Потом они организовали множество разных обучений SLM в разных узлах кластера. За счет параллелизма очень быстро обучили много таких вариантов SLM на разные аспекты и получили отличное прохождение тестов в каждом отдельном случае, что намного лучше, чем дистилляция. Но самое главное, что SLM на RL уже может реагировать как настоящий LLM на необычные ситуации.
Осталось дело за небольшим, как склеить эту "стаю" SLM в один продукт?
В статье намечен путь. Экземпляры SLM "делятся опытом", т.е. если один экземпляр решил задачу, то расшаривает по кластеру решение и другие узлы берут себе его в обучение. Поэтому в итоге получается несколько разных, но генерализированных экземпляров SLM.
https://arxiv.org/abs/2509.08721v1
arXiv.org
Sharing is Caring: Efficient LM Post-Training with Collective RL...
Post-training language models (LMs) with reinforcement learning (RL) can enhance their complex reasoning capabilities without supervised fine-tuning, as demonstrated by DeepSeek-R1-Zero. However,...
🔥7❤6🤯1
Open Router раскрыл статистику по языкам программирования с ИИ. Видно, что в "vibe coding" сильно отличается распределение использования языков, чем сейчас фиксируют по общим опросам.
Абсолютное доминирование в общем объеме запросов демонстрируют Python (почти 47%) и JavaScript (более 36%), что суммарно составляет более 83% всех учтенных запросов. Остальные языки явно занимают маргинальные позиции.
Я несколько месяцев назад уже писал, что большой фокус вендоров ИИ в Питон для backend и JS для frontend может по факту сформировать дуполию Python+JS с вымиранием остальных языков программирования. Потом тренд несколько смягчился тем, что вендоры ИИ стали сильно нажимать на тест Aider Polyglot, поэтому резко улучшились результаты в Rust, Go и C#
Тем не менее, вендорам ИИ намного легче выполнять фокусные тренировки на 2 языка, чем на множество. Я бы сейчас в новых проектах с ИИ ставил больше на Python и JS, т.к. поддержка их в ИИ определенно лучше
https://openrouter.ai/rankings?programming-language=Python#programming-languages
Абсолютное доминирование в общем объеме запросов демонстрируют Python (почти 47%) и JavaScript (более 36%), что суммарно составляет более 83% всех учтенных запросов. Остальные языки явно занимают маргинальные позиции.
Я несколько месяцев назад уже писал, что большой фокус вендоров ИИ в Питон для backend и JS для frontend может по факту сформировать дуполию Python+JS с вымиранием остальных языков программирования. Потом тренд несколько смягчился тем, что вендоры ИИ стали сильно нажимать на тест Aider Polyglot, поэтому резко улучшились результаты в Rust, Go и C#
Тем не менее, вендорам ИИ намного легче выполнять фокусные тренировки на 2 языка, чем на множество. Я бы сейчас в новых проектах с ИИ ставил больше на Python и JS, т.к. поддержка их в ИИ определенно лучше
https://openrouter.ai/rankings?programming-language=Python#programming-languages
👍10🤔2🔥1