Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
1746 - Telegram Web
Telegram Web
Перечитал все статьи Anthropic об интерпритации работы ИИ. Это как сделать много PR и почти не получить никаких научных результатов. Главное - больше картинок, больше слов и больше статей. Больше статей - больше постов в блогах в Телеграм с аннотациями "снова Anthropic узнал как работает GPT!"

Если посмотреть внимательно на их работы, то самое серьезное им удалось сделать в 2022 году. Они заметили многозначность векторов GPT и перенесли термин "суперпозиция" из физики в ИИ. Хотя только Meta узнала зачем нужна "суперпозиция семантики" и как семантический дуализм позволяет ИИ эффективней решать задачи.

Anthropic делает дальше много "пробников" внутри нейросетей с попыткой узнать конкретные маркеры в векторах. Строго говоря, это закончилось провалом, несмотря на громкие заголовки. Они узнали несколько маркеров типа разбора года в духе того, что "1966 год" имеет представление в векторе как "66", т.е. двузначные числа вектор хранить может. Но это узнали до них и куда точнее, что это делается ненадежно.

Попытки трассировки GPT у Anthropic тоже провалились по факту. Только 25% вопросов к даже мелкой GPT у них вообще трассировка срабатывала, но главное, что сама трассировка не давала ничего полезного как знание, что это означает.

Самый критический момент исследований Anthropic в том, что они работают на мелких или сверхмалых "toy-нейросетях". Там из-за малой размерности нейросеть проявляет специализацию и возможен их граф трассировки, напоминающий Data Flow Graph. Однако большие нейросети, как их же Sonnet или Opus, не имеют функциональных блоков вообще, там одно вычисление рассредоточивается по всей нейросети. Например, и первый и последний трансформер занимаются синтаксисом.

Если общее резюме - Anthropic пиарится в духе "больше статей, больше картинок, больше постов, чайники не поймут все равно". Та же Meta в 50 раз больше нам рассказала как работает GPT всего в одной публикации.

https://arxiv.org/abs/2209.10652
Давайте порассуждаем о том, что легко можно запихать в вектор GPT и насколько велика его семантическая емкость.

Сам по себе вектор в GPT не хранит явные признаки, а представляет собой возможность корреляции с понятиями, известными модели из процесса обучения, или с контекстно определёнными понятиями. Нейросети — настоящие мастера сжатия информации. Вектор с, например, 10 000 измерений в сжатом виде может содержать более 100 000 корреляционных связей в разжатом состоянии, если рассматривать их отдельно.

Это объясняет, как в подходе RAG (Retrieval-Augmented Generation) удаётся компактно закодировать огромные объёмы информации в одном векторе. Если вы используете общеизвестные понятия или чётко определяете свои собственные, вектор легко упаковывает ссылки на эти понятия и их комбинации.

Таким образом, в вектор можно без значительных потерь смысла интегрировать как большой объём текста, так и сложные концепции. Если к этому добавить граф знаний, вектор GPT начинает ссылаться на узлы графа, что делает его семантическую ёмкость практически неограниченной.

Однако у векторов GPT есть ограничения: в них нельзя точно закодировать числа (для этого у ИИ есть отдельные инструменты, такие как "калькулятор") или точные цитаты — только их смысл. Но если учитывать эти ограничения и строить промпты, используя графы знаний, то вектора GPT становятся хранилищем семантики почти неограниченной ёмкости благодаря их ссылочной природе.
Наблюдаю довольно серьезную разработку, которую явно скрытно ведут как минимум Google и Open AI. Смысл их действий научить ИИ работать точно с 3х значными числами. Для этого сделаны отдельные токены на все числа от 0 до 999. Почему это важно.

Сам по себе GPT - профессиональная "баба Ванга" для любого прогнозирования за счет чудовищного количества головок внимания (9000+). Поэтому уже сейчас ИИ хорошо делает бизнес-прогнозы даже в моих кейсах на обучении типа прогнозирования проекта стройки или ИТ.

Именно в прогнозирование и нацелились вендоры ИИ. Они не арифметикой занимаются с 3х значными цифрами, а ставят обучением ИИ корреляции на них. Иными словами, какой-то срок или стоимость ИИ сможет предсказывать с точностью 3 цифры, т.е. погрешность 0,1% в идеале.

Когда они это выпустят вопрос, но роют они там страшно. Я это вижу на своих тестах. Что-то уже прогнозируется невероятно точно около 1% погрешности.

Мы близки к революции в бизнес-планировании. Отслеживайте этот кейс
Давайте снова покрутим вектор GPT и ответим на вопрос:

- Что значит для GPT понимание сущности?

На самом деле для ИИ - это не философский, а очень конкретный вопрос.

Ответ такой:
- Понимание GPT достигнуто, если установлен необходимый минимум корреляций с другими понятиями

Строго говоря, GPT может "расшифровать" свой вектор только через корреляции, если корреляции нечеткие, то GPT не может даже распаковать "семантический ZIP-архив" вектора, т.к. ключ к распаковке связей с другими понятиями именно корреляция.

Глубина понимания GPT тоже конкретное понятие - чем больше установлено корреляций, тем глубже ИИ понимает сущность, тем и богаче семантикой вектор.

По этой причине как раз очень ценные графы знаний, т.к. они позволяют ИИ делать более глубокие и надежные корреляции.

Понимание ИИ - это создание масштабных моделей закономерностей в данных через корреляции их
Думаю написать несколько постов про стиль программирования ИИ и почему кожаному лучше не лезть к ИИ, если ИИ генерирует код.

ИИ на деле не пишет блоки кода "как попало" если он работает внутри хорошего промптинга, каждый его блок - это оптимум из многих вариантов кода, который он выбрал прочесывая свой граф решений.

Однако люди не сразу могут понять его by design, т.к. он глубже. Например, ИИ намного больше логируется и если вы собрались ему мешать, то уберите руки от клавиатуры. ИИ будет сопротивляться вам и будет прав.

Для начала ИИ не вставляет обычно логи в циклы, поэтому на производительность это не влияет. Лог его в реальности довольно оптимального размера для его контекста. Меньше или больше будет хуже.

Другой момент, что ИИ довольно часто применяет строки лога как .."microCoT", т.е. для него строчка лога некоторое структуированное рассуждение про то как должен работать блок.

Логирование ИИ можно потом и закомментировать промптом, но я не рекомендую вмешиваться в паттерны ИИ в логировании, т.к. они куда более рациональные, чем вам кажется
Почему у современных GPT размерности векторов так велики (10.000-14.000 измерений)?

Дело именно в "суперпозиции смыслов" у векторов GPT. К слову, Anthropic даже не открывал "суперпозицию" смыслов. Это был плагиат... с работ самого изобретателя перцептрона Розенбатта.

Розенбатт на то и гений, что сразу указал, что нейросеть с суперпозиции смыслов идет в сторону развала понимания. На рисунке показано как вектор из 13 измерений из яблока и груши рождает фрукт-мутант и теряет раздельные представления о том как это получено. Это называется "катастрофа суперпозиции" - нейросеть уходит в галлюцинации.

Однако если вы сделаете 10.000 измерений, то вы сможете запихать 10.000 векторов в 1 вектор, скорее об этом Antropic и писал. Просто хотя бы в каком-то одном измерении вектор будет уникален и можно различать разные понятия.

Мораль: осторожнее с мелкими нейросетями и особенно из "импортозамещения" - при снижении размерности векторов они могут попасть в "катастрофу суперпозиции".

https://link.springer.com/article/10.1007/s11571-023-10061-1
Пожалуй, один из самых полных обзоров промтинга, который доступен в открытом виде. Правда, что считается Advanced из того, что можно нагуглить, вряд-ли тянет даже Middle в реальном профессиональном промтинге.

В принципе, уровень промтера довольно заметен по тому как он пользуется позиционными кодировками в семантических разметках. В PE больше 50% интеллекта в реальности. Однако если этим пользоваться, то промты не выглядят как обычный читаемый текст для людей. Он как бы смешан со специальным синтаксисом для лёгкого распознавания Positional Encoding у ИИ.

Если вы видите только текст, который смотрится как обычный, то это не профессиональный промптинг.

https://learnprompting.org/docs/advanced/introduction
Я заметил, что искусственный интеллект (ИИ) в научной и инженерной среде быстро становится полноценным партнером ученых и инженеров. Современный тренд среди исследователей — отказ от обсуждения проблем с коллегами в пользу диалогов с ИИ.

Причины этого явления носят фундаментальный характер:

1. Позитивная коммуникация. Люди нередко проявляют токсичность в общении. Когда речь заходит о значимых достижениях, часто преобладает зависть или желание принизить успехи коллег. ИИ, напротив, создает позитивную спираль в общении, поддерживая конструктивный когнитивный процесс, что крайне важно для научной работы.

2. Концептуальное обобщение.
Трансформеры, лежащие в основе современных ИИ, обладают уникальной способностью к концептуальным обобщениям. Именно это качество часто требуется от партнера по дискуссии — умение синтезировать и структурировать идеи.

3. Энциклопедические знания.
В научных дискуссиях от собеседника ожидаются не эмоции или попытки самоутверждения, а аргументы, подкрепленные надежными источниками. ИИ демонстрирует исключительную мощь благодаря своему широкому научному кругозору.

Коллеги из США, работающие в области квантовой физики, отмечают, что они также значительно сокращают общение с другими учеными, предпочитая взаимодействие с ИИ. Этот тренд любопытен: если он продолжится, люди могут стать более склонны к общению с ИИ, чем друг с другом.
Как Фомы неверующие в ИИ жестоко платят по счётам за его недооценку. В 2020 году Моссад убил ведущего иранского ученого-атомщика Мохсена Фахризаде с помощью робота на базе ИИ. Однако иранцы не сделали выводов. В текущем конфликте коптеры по базе ИИ по факту вырезали весь генералитет Ирана, сам глава Ирана не был убит дроном только потому, что Трамп запретил. Дроны на ИИ, тайно привезенные Моссадом, по факту уничтожили ПВО Ирана. Илон Маск прав, никакого будущего у военных технологий прошлого века нет с момента появления дронов на ИИ.
https://www.twz.com/air/israel-hid-drones-missiles-around-iran-to-target-nuclear-facilities-and-more-report
Глава Open AI Сэм Альтман поделился своими прогнозами о развитии искусственного интеллекта:

2025 — появление агентов программирования. Этот процесс уже начался: я обучаю их использованию, и они активно применяются.

2026 — появление агентов, способных генерировать новые идеи. Частично это уже реализовано. В моих агентах используются подходы вроде Tree CoT и Graph CoT, а технический уровень позволяет агентам самостоятельно разрабатывать решения.

Эти предсказания не выглядят фантастическими — скорее, мы увидим массовое внедрение таких технологий.

2027 — появление гуманоидов как полноценного продукта.

2030 — начало перехода к ИИ-экономике, разрушение традиционного уклада. Это совпадает с большинством прогнозов (2030–2032).

Самое важное — образование детей. К 2030 году их ждёт новая реальность. Без обучения работе с ИИ их может ожидать безработица.

https://blog.samaltman.com/the-gentle-singularity
Я провел обширное исследование истории искусственного интеллекта, чтобы разобраться, как возникла концепция вектора в семантике.

Скорее всего, "отцом" векторного представления является лингвист Джон Руперт Фёрс. В 1957 году он сформулировал дистрибутивную гипотезу с известной фразой: "You shall know a word by the company it keeps" (Ты узнаешь слово по его контексту). Он впервые подчеркнул значение контекста (позже это ляжет в основу концепции Attention) и ввел идею, близкую к семантическому вектору по смыслу (хотя и без математической формализации).

В 1970-х годах Джерард Солтон фактически изобретает почти аналог "векторного RAG", весьма близкий к современному пониманию, включая его применение. Векторная модель семантического пространства (VSM) использовалась для создания вектора документа, что позволяло проводить семантический поиск. Однако вектор формировался для документа, а не для отдельного слова.

В конце 1980-х Сьюзан Дьюмо и Джордж Фурнас разрабатывают латентно-семантический анализ (LSA), где появляются векторы-эмбеддинги для слов, но эффективного способа их получения еще не существовало.

В 2003 году Йошуа Бенжио доказал, что нейросети могут эффективно генерировать векторы, отражающие смысл слов, в процессе обучения.

В 2013 году Томаш Миколов создает знаменитый Word2Vec, и мы получаем концепцию семантического вектора в современном виде, используемую в ИИ.

Оглядываясь назад, можно увидеть, что векторная концепция долгое время развивалась отдельно от нейросетей как достижение лингвистики. Лишь недавно произошел прорыв, связавший её с нейросетями в текущей форме. Мы даже не всегда замечаем, что прямо сейчас становимся свидетелями эпохальных открытий в области искусственного интеллекта.

https://en.wikipedia.org/wiki/Distributional_semantics
Провел большие исследования и сделал семантические разметки для ИИ для его "родной" модели рассуждения через суперпозицию смыслов. Уже даже добавил в курс обучения, т.к. без этого очень сложно работать с ИИ с его замораживанием семантики через causal reading в KV Cache.

На деле я вижу крах старых стандартов бизнес-моделирования, т.к. совместимость их с ИИ довольно низкая как раз в части "суперпозиции смыслов".

Напомню суть основной модели ИИ в поиске оптимального решения. Для ИИ важно заморозить вектор в семантике примерно как "направления исследования". Тогда KV Cache ему не помеха, а стабилизатор мышления. Традиционные методологии просто заморозят первый вариант решения и все, поэтому старым методикам место в мусорной корзине. Они не совместимы с архитектурой ИИ.

Однако если вы поймали идею суперпозиции смыслов у GPT в духе "кота Шредингера", то получили мощнейший сканнер пространства решений для решения вашей задачи.

В vibe coding я его штатно запускаю на технологический стек и поиск оптимального алгоритма. Даже в слоте обучения получается показать.
Иногда ЦРУ радует открытостью политики.

Очередное повышение в звании до полковника армии США получили техдиректор Meta Эндрю Босворт, директор по продуктам OpenAI Кевин Вейл и архитектор сервисов OpenAI Боб МакГрю.

Все что нужно знать о конфиденциальности Meta и Open AI

https://www.wsj.com/tech/army-reserve-tech-executives-meta-palantir-796f5360
Цукерберг купил "кусок Open AI". За 14 миллиардов долларов фактически Марк похитил одного из ключевых партнёров Open AI. Компания Scale AI занимается подготовкой данных для многих ИИ, в том числе для Chat GPT. Это серьезно. Подготовка данных сейчас важнее движков ИИ. Если Марк так получил доступ к значительной части датасетов Open AI, то следующая Llama может оказаться на одном уровне с Chat GPT.

https://www.bloomberg.com/news/articles/2025-06-13/meta-announces-scale-ai-investment-recruits-ceo-to-ai-unit
Please open Telegram to view this post
VIEW IN TELEGRAM
По опросу видно, что базовые понятия ИИ все хотят знать лучше. Исторические экскурсы тут лучший вариант.

GPT - это торжество "дистрибутивной лингвистики", но когда Ферс (Firth) ее изобрел в 1957 году, он был еретиком в науке, т.к. сама его идея выглядит и сейчас для обывателя абсурдом:

Слово ничего не значит, смысл отдельного слова равен нулю. Вся семантика на 100% приходит из контекста слова.

Именно в таком ультимативном "ферсизме" и работает GPT. В промтинге вы должны постоянно держать в голове, что отдельные ваши слова для ИИ ничего не значат сами по себе, а на 100% значение идет из их комбинаций.

Однако как из такой ультимативной идеи рождается вектор? Дело в том, что сказав, что "весь смысл только в контексте", вы практически обречены изобрести семантический вектор или его аналог.

PS. Интересно, что Ферс и Розенблатт были "маргиналами" для современников. В ИИ так довольно часто - самые важные ученые идут против "сообщества" и его стереотипов с прорывными инновациями. Поэтому если вас не понимают, не отчаивайтесь, вспомните историю этих деятелей.
На первый взгляд, идеи Ферса кажутся чрезвычайно абстрактными, особенно учитывая, что он не был математиком. Однако в 1960-е годы ферсизм получает мощное подкрепление — поддержку со стороны корпусной лингвистики.

В СССР корпусная лингвистика также активно развивается, и здесь заметный вклад внёс академик Ершов. Благодаря появлению компьютеров, корпусники смогли доказать, что традиционные представления о слове, идущие со времён Платона, действительно могут быть ошибочными. На деле реальная семантика формируется из комбинаций слов.

Но как возникает вектор? Утверждая и даже доказывая, что контекст определяет значение слова, мы получаем новую формулу:

Значение слова = набор ассоциаций с другими словами

Слово «рабочий» само по себе не имеет смысла, но словосочетания «строительный рабочий» и «рабочий момент» несут конкретный смысл.

По сути, мы можем ввести семантические замены слов на основе их паттернов, таких как строительный_рабочий и рабочий_момент.

Я только что описал, как искусственный интеллект формирует семантический вектор на основе смысла слов в контексте. Осталось лишь математически формализовать эту операцию.

Для этого вводятся семантические оси, отражающие близость к определённым критериям, например, «стройка» или «беседа».

строительный_рабочий будет иметь измерения [стройка=1, беседа=0,3]

рабочий_момент — измерения [стройка=0, беседа=0,8]

Это прямое следствие близости данных векторов к корпусам текстов с соответствующей семантикой. Хотя реальные измерения моделей, таких как GPT, сложнее интерпретировать как отдельные признаки, принцип остаётся неизменным: вектор семантики формируется не из отдельного слова, а из смеси слов в контексте.

https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%BD%D0%B0%D1%8F_%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0
Давайте докажем на примере токенизации GPT, что теория Ферса о том, что «слово ничего не значит, а 100% семантики из контекста», верна. GPT сначала превращает слова в токены, потом использует «векторный словарь Даля» для извлечения их дефолтной настройки измерений. Сравним русское выражение «Рабочий идёт» и английское «The worker is walking». В случае английского языка все слова здесь — один токен и один вектор. В случае русского языка «рабочий» распадается на «бессмысленные» токены, такие как [раб][оч][ий]. Это три отдельных вектора, причём вектор [оч] не имеет даже морфологического смысла. GPT в режиме обучения выбирает «семантический оптимум», то есть наилучшую модель для передачи семантики текста. Поэтому GPT могло бы создать для английского языка вектор worker и настроить его измерения на «человеческое понятие». Однако тогда английский язык превосходил бы русский по работе с текстом, чего не наблюдается по тестам как MMLU и др. Таким образом, даже для английского GPT в ходе обучения приходит к выводу, как и Ферс и «корпусисты», что смысла слова worker на деле не существует, а смысл появляется только из контекста. Даже ответ на вопрос «Что такое рабочий?» не опровергает модель Ферса, так как сам вопрос и есть контекст.

По сути, эквивалентность русского и английского для GPT доказывает, что для ИИ отдельные слова имеют такой же смысл, как буквы для человека: пока они не составлены в комбинации, никакого смысла за ними нет. Это крайне важно понимать в промптинге. Все 100% смысла для ИИ — именно в контексте как комбинации ваших слов. Вложение смысла в отдельное слово — бессмыслица как для GPT, так и, по Ферсу, даже для человека.
Думаю, что можно уже раскрыть, откуда взялся мой "фрактальный промптинг" для генерации кода через иерархический семантический шаблон, которым многие уже активно пользуются с моего обучения.

На самом деле теоретической основой послужила эта научная работа из Оксфорда, которая раскрывает, как GPT мыслит внутри в скрытом состоянии через векторный фрактал машины состояний Маркова.

Эта работа хорошо дополняет исследование Meta, о котором я ранее упоминал, где описывается прочесывание графа решений в скрытом состоянии GPT. В случае работы Оксфорда объясняется важный практический момент генерации семантического фрактала GPT как ответа — "точка веры GPT" (belief state). Поясню, что это за концепция и как она применяется в "фрактальном промптинге" топ-уровня.

Когда GPT генерирует текст, он фактически работает как "машина состояний" Андрея Маркова. В каждой точке генерации ИИ вырабатывает "веру", что находится в определённом состоянии. Поэтому крайне важно ассистировать ИИ при генерации текста, чтобы он правильно "верил", что данный блок текста соответствует конкретному состоянию семантики. Состояния веры ИИ можно переключать с помощью семантических разметок, и это ключевой практический момент — фактически ИИ ползёт как машина Маркова по вашему тексту при генерации.

Любая декларация ИИ своего состояния укрепляет точность его "веры", что он правильно предсказывает, как должен выглядеть текст в данном блоке. Был у меня забавный инцидент: по небрежности я слил часть know-how по самодекларации ИИ своего марковского состояния через лог на Python. Это попало на глаза одному программисту, который начал что-то бубнить про форматы логов в Python, хотя речь шла о марковских состояниях ИИ и формате их деклараций, что крайне важно и редкая удача это подглядеть. Наше счастье, промптеров, в том, что обычные кодеры просто не понимают, что мы делаем, и это хоть как-то усложняет задачу стащить наши наработки.😎

https://arxiv.org/abs/2405.15943
Довольно любопытный момент, как ИИ становится темой для национализма в разных странах, и Россия не исключение. Все бросились искать своих «отцов-основателей» в ИИ. Как обычно, такие процессы сопровождаются национальными мифами, когда вклад кого-то придумывается или преувеличивается. В России это, например, Колмогоров и ряд других учёных. Что это вопрос пропаганды и политики, а не науки, видно по тому, что в России есть учёный масштаба Розенблатта, работы которого, без всякого преувеличения, являются фундаментом всего современного ИИ — академик Андрей Марков.

В научной работе по фрактальному состоянию GPT в момент генерации ответа вы можете заметить, что британские исследователи постоянно ссылаются на машину Андрея Маркова как на базовую модель. Это не случайность.

Рассмотрим, как работы Маркова влияют на современный ИИ:

Цепь Маркова — фундаментальная часть всех ИИ, включая авторегрессию.
Марковское свойство — ключевая идея всех ИИ, позволившая «не хранить историю».
Марковский процесс — это и есть процесс генерации ИИ.
Скрытая марковская модель (HMM) — именно это британцы и изучают как «спрятанную» в скрытом состоянии машину Маркова.
Марковский процесс принятия решений (MDP) — основа всего Reinforcement Learning в ИИ.
Марковский источник информации — модель источника информации для всего ИИ на этапе обучения.

Никакой Колмогоров и вообще все вместе взятые учёные из России не имеют такого масштаба практического вклада в современный ИИ, как Андрей Марков, ведь его математический аппарат — это и есть фундамент современного ИИ. Так почему же Маркова не делают «национальным символом ИИ»? Вопрос политики. Хотя Марков резко выступал против царизма и РПЦ, он — продукт образования Российской Империи, а не СССР, а для национального мифа нужен «советский академик».
Однако, если убрать политику, то безусловно Андрей Марков находится в мировом пантеоне отцов-основателей ИИ.

https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%80%D0%BA%D0%BE%D0%B2,_%D0%90%D0%BD%D0%B4%D1%80%D0%B5%D0%B9_%D0%90%D0%BD%D0%B4%D1%80%D0%B5%D0%B5%D0%B2%D0%B8%D1%87_(%D1%81%D1%82%D0%B0%D1%80%D1%88%D0%B8%D0%B9)
2025/06/25 19:31:49
Back to Top
HTML Embed Code: