На схеме гуманоид Optimus от Tesla, вся его механика создана на базе актуаторов, как и механика любого другого современного гуманоида.
Актуаторы стремительно дешевеют. Morgan Stanley провел большое исследование и предсказывает появление "Intel в актуаторах", т.е. сверхкомпании по такой механике с неслыханными доходами, т.к. гуманодов будут делать миллионами.
Но что тут важно понять в актуаторах самое главное? Для начала если вы отдали ребенка учится на ювелира или врача-микрохирурга с надеждой, что там гуманоиды его не догонят, то это ОШИБКА. Особенность актуатора в том, что кроме грубого режима движения у него есть медленный, но сверхточный. Как видно по James Webb точность актуаторов может быть невероятной вообще для механики. Хотя гуманоиды сейчас кажутся неуклюжими из-за софта, но потенциальная точность их механики такова, что Илон Маск прав, что людей в 2030х не будут допускать к хирургическим операциям, т.к. точность движений гуманоидов несопоставимая и недостижимая людьми в принципе
Актуаторы стремительно дешевеют. Morgan Stanley провел большое исследование и предсказывает появление "Intel в актуаторах", т.е. сверхкомпании по такой механике с неслыханными доходами, т.к. гуманодов будут делать миллионами.
Но что тут важно понять в актуаторах самое главное? Для начала если вы отдали ребенка учится на ювелира или врача-микрохирурга с надеждой, что там гуманоиды его не догонят, то это ОШИБКА. Особенность актуатора в том, что кроме грубого режима движения у него есть медленный, но сверхточный. Как видно по James Webb точность актуаторов может быть невероятной вообще для механики. Хотя гуманоиды сейчас кажутся неуклюжими из-за софта, но потенциальная точность их механики такова, что Илон Маск прав, что людей в 2030х не будут допускать к хирургическим операциям, т.к. точность движений гуманоидов несопоставимая и недостижимая людьми в принципе
Сегодня был на обучении клиент нейробиолог. Хотел бы отметить многим, кто занимается наукой, что GPT крайне мощный научный инструмент в кейсах, которые многие обыватели не подозревают. Сам по себе GPT сверхмощная корреляционная машина из 9000+ головок внимания, которые ищут корреляции сразу в 4000+ векторов и еще с 10.000+ измерений. Это позволяет GPT ловить корреляции на необычно небольшом количестве кейсов для обучения few shot. Уже с 50 медицинских кейсов обычно GPT может начать ставить неплохие диагнозы. В инженерии с 50 кейсов дефектов в бетоне делать прогнозы растрескивания и т.п. Другой системы, которая начинает работать с небольшой статбазы так круто как GPT и нет больше. Правда нужно графами прокачать контекст векторов до моделирования, но это штатный режим того же Gemini.
Рекомендую однотокенный вывод, т.к. GPT не нужно думать как в N токенов разложить результат и освобождаются мощность для прогнозирования. Надежность прогнозов выше.
Однотокенный промптинг я описывал ранее
Рекомендую однотокенный вывод, т.к. GPT не нужно думать как в N токенов разложить результат и освобождаются мощность для прогнозирования. Надежность прогнозов выше.
Однотокенный промптинг я описывал ранее
В свое время Microsoft меня выбрал сильнейшим экспертом по MS Project в Восточной Европе - Microsoft Most Valuable Professional. Если бы кто-то выдавал такие титулы за графы семантики для GPT, пожалуй, я бы попросил тоже Award. 😎
Разработал GPT Graph 2.0 с такими возможностями:
1. Учет 9000 подпространств головок внимания для связей. Все ваши связи в графе должны быть в разрезах подпространств семантики головок внимания GPT или они менее эффективные.
2. Корреляционные (весовые) коэффициенты Attention-матриц GPT на связях графа явно
3. Поддержка корреляционных связей позиционных кодировок GPT - в 2 раза усиление семантической мощи графа только тут
Такое в Visio или простыми запросами не делается. Сам граф у меня из ваших данных или данных из Интернет делает ИИ самостоятельно.
Сегодня уже буду обучать по новой версии графов для GPT. Почему они абсолютно критические в вашей работе с GPT в следующем посте
Разработал GPT Graph 2.0 с такими возможностями:
1. Учет 9000 подпространств головок внимания для связей. Все ваши связи в графе должны быть в разрезах подпространств семантики головок внимания GPT или они менее эффективные.
2. Корреляционные (весовые) коэффициенты Attention-матриц GPT на связях графа явно
3. Поддержка корреляционных связей позиционных кодировок GPT - в 2 раза усиление семантической мощи графа только тут
Такое в Visio или простыми запросами не делается. Сам граф у меня из ваших данных или данных из Интернет делает ИИ самостоятельно.
Сегодня уже буду обучать по новой версии графов для GPT. Почему они абсолютно критические в вашей работе с GPT в следующем посте
Графы в GPT - эмерджентное свойство головок внимания. Корреляции в их таблицах создают ребра графа между векторами. Почему критически управлять процессом графа GPT явно?
1. Если вы не делаете граф, то GPT его все равно делает, но из-за казуального чтения GPT "не дочитав" ваш контент, легко отрастит "кривую ветку" графа и ... заморозит ее в KV Cache, далее станет упрямый как осел в какой ерунде
2. Для распределенного внимания (sparse attention) верхушка графа выполняет роль системы якорей для навигации GPT, без явного графа после 4к токенов у вас начнутся обвалы понимания GPT большого текста
3. Семантические графы имеют невероятную семантическую плотность относительно исходной информации - сжатие до 50 раз в числе токенов, но это еще и очистка информации от шума. По факту это обход лимита на размер окна внимания GPT
Если вы не умете строить графы в GPT, то вы по факту не умете им пользоваться
Поэтому какое бы обучение по GPT я не вел, я всегда рассматриваю графы для этой темы
1. Если вы не делаете граф, то GPT его все равно делает, но из-за казуального чтения GPT "не дочитав" ваш контент, легко отрастит "кривую ветку" графа и ... заморозит ее в KV Cache, далее станет упрямый как осел в какой ерунде
2. Для распределенного внимания (sparse attention) верхушка графа выполняет роль системы якорей для навигации GPT, без явного графа после 4к токенов у вас начнутся обвалы понимания GPT большого текста
3. Семантические графы имеют невероятную семантическую плотность относительно исходной информации - сжатие до 50 раз в числе токенов, но это еще и очистка информации от шума. По факту это обход лимита на размер окна внимания GPT
Если вы не умете строить графы в GPT, то вы по факту не умете им пользоваться
Поэтому какое бы обучение по GPT я не вел, я всегда рассматриваю графы для этой темы
Про Grok+Gemini, семантические разметки и code review. Вероятно я в России основной эксперт по семантическим разметкам в коде для генерации/редактирования в ИИ. Аналогов не вижу, да и толпы программистов на обучении говорят сами за себя.
Отмечу очень большую пользу семантических разметок на контрактах и UML/AAG для модулей и функций в том, что любой ИИ может их сходу считать и начать сразу осмысленно работать с кодом.
Отдельный кейс у меня тут с Grok. Практика показала, что "болтливость" Grok огромный плюс как ревьюера документов. Крайне рекомендую связку Gemini Pro как программист, а code review от Grok. Последний на семантических разметках сразу же подхватывает его код без дополнительного контекста и для сложных багов для Gemini "простыни рекомендаций" от Grok на деле очень сильно помогают.
Вообще говоря, это одна из методик "ансамблирования ИИ", если вы не умеете соединять ИИ разных вендоров вместе для решения проблем как ошибки и галлюцинации, то вам нужно обучение этой теме
Отмечу очень большую пользу семантических разметок на контрактах и UML/AAG для модулей и функций в том, что любой ИИ может их сходу считать и начать сразу осмысленно работать с кодом.
Отдельный кейс у меня тут с Grok. Практика показала, что "болтливость" Grok огромный плюс как ревьюера документов. Крайне рекомендую связку Gemini Pro как программист, а code review от Grok. Последний на семантических разметках сразу же подхватывает его код без дополнительного контекста и для сложных багов для Gemini "простыни рекомендаций" от Grok на деле очень сильно помогают.
Вообще говоря, это одна из методик "ансамблирования ИИ", если вы не умеете соединять ИИ разных вендоров вместе для решения проблем как ошибки и галлюцинации, то вам нужно обучение этой теме
Вел сегодня обучение строителя на планирование работ от ПСД к графику в Microsoft Project. До этого методологию планирования строительных работ я оформил в виде Методологического Графа. Аналогичный граф я сделал и использую для методологии разработки с ИИ.
Очень важный момент с появлением ИИ - если методологию нельзя представить как граф, то для ИИ это не методология, а ерунда в виде текстовой энтропии.
Забавно еще строить такие графы по части обучений современных коучей. Часто от обучения за кучу денег и времени остается 5-6 нод графа. Просто GPT указывает, что "вода, банальщина и старье". Поскольку семантической ценности нет, то GPT это просто выбрасывает из графа методиста. Поэтому графы по методикам еще хороший лакмус - разводят вас или нет. GPT "воду" в графы не включает
Отмечу, что рефлексия GPT крайне надежная оценка эффективности промптинга, но:
1. Если GPT получил опыт создания чего-то как тут по промпту (графу), а не просто его разглядывает
2. Более надежным является ВЫВОД GPT, а не объяснения
Очень важный момент с появлением ИИ - если методологию нельзя представить как граф, то для ИИ это не методология, а ерунда в виде текстовой энтропии.
Забавно еще строить такие графы по части обучений современных коучей. Часто от обучения за кучу денег и времени остается 5-6 нод графа. Просто GPT указывает, что "вода, банальщина и старье". Поскольку семантической ценности нет, то GPT это просто выбрасывает из графа методиста. Поэтому графы по методикам еще хороший лакмус - разводят вас или нет. GPT "воду" в графы не включает
Отмечу, что рефлексия GPT крайне надежная оценка эффективности промптинга, но:
1. Если GPT получил опыт создания чего-то как тут по промпту (графу), а не просто его разглядывает
2. Более надежным является ВЫВОД GPT, а не объяснения
Позабавили коллеги в чате, которые собрались делать контрольные эксперименты на корреляции, при этом даже не понимают, что GPT сам может делать корреляции и эксперименты.
Ровно за эту способность Attention механизма Alpha Fold или Rosetta и была получена Нобелевская премия.
В чем фокус. Если GPT отработал по контекту, хоть ДНК, хоть промпта, то у него появляется что-то вроде "корреляционной интуиции". Сам по себе GPT не всегда может точно сформулировать ПРИЧИНЫ почему то или иное на него сильно повлияло из контекста.
Однако GPT прямо "ощущает" мощь корреляции векторов, т.к. это прямо оказывает влияние на вывод всего, что он вам пишет. Перцептрон вообще "профессионал" экспертного заключения как "категория" по корреляции.
Поэтому с прищуром смотрите на объяснения GPT насчет вашего промптинга, но вот ВЫВОД его имеет совсем другой вес - это объективная реальность вашего "численного эксперимента".
Ровно за эту способность Attention механизма Alpha Fold или Rosetta и была получена Нобелевская премия.
В чем фокус. Если GPT отработал по контекту, хоть ДНК, хоть промпта, то у него появляется что-то вроде "корреляционной интуиции". Сам по себе GPT не всегда может точно сформулировать ПРИЧИНЫ почему то или иное на него сильно повлияло из контекста.
Однако GPT прямо "ощущает" мощь корреляции векторов, т.к. это прямо оказывает влияние на вывод всего, что он вам пишет. Перцептрон вообще "профессионал" экспертного заключения как "категория" по корреляции.
Поэтому с прищуром смотрите на объяснения GPT насчет вашего промптинга, но вот ВЫВОД его имеет совсем другой вес - это объективная реальность вашего "численного эксперимента".
Если будет подписчикам интересно, то сделаю ряд эссе об истории нейросетей. Однако одну историю определенно стоит знать всем. Речь о баталии кланов нейрофизиологов и математиков, которая отбросила развитие ИИ на 20 лет назад, а авторитетные математики для распила грантов пошли на самую масштабную фальсификацию научного исследования в истории ИИ.
Хотя многих удивит, но компьютерные нейросети придумали не математики. В 1950х все ученые математики образовали клан "символистов", т.к. двигали тему эвристик и некого "универсального языка программирования ИИ". Они спокойно пилили свои гранты без практических результатов, пока не появилась "белая ворона" Фрэнк Розенблатт. Он не был математиком, а был нейрофизиологом. Именно он создает первую рабочую нейросеть из двух слоев нейронов - Перцептрон. По факту Перцептрон Розенблатта почти концепции 1957 года и стоит за механизмом внимания в трансформере GPT.
Самые авторитетные "символисты" как Марвин Минский и Сеймур Паперт, которые были сильнейшими математиками в области ИИ в тот момент, быстро оценили риски. До перцептрона Розенблатта в их лабораторию MIT текли деньги грантами рекой, теперь и Пентагон спрашивал, а "что такое нейросеть?"
Минский и Паперт быстро навешивают нейрофизиологу ярык "психолог" и пишут не научную статью, а целую книгу "Перцептроны", где математически авторитетно "доказывают", что Перцептрон (как в GPT) вообще работать не может в сложных задачах. Как пример они выбрали так называемую XOR задачу, показывая, что перцептрон Розенблатта ее решить не может. Однако по факту они пошли на фальсификацию доказательств. Дело в том, что математики такого уровня конечно знали о "нелинейных функциях", придуманных еще в XIX веке и что они применяются в ИИ, в том числе и Розенблатт ими пользовался. В современном Перцептроне стоит улучшенный аналог "сигмоида Лапласа" как ReLU между слоями нейронов, без нелинейного элемента и живые и компьютерные нейросети не работают. Минский и Паперт конечно владели математикой XIX века, более того, нелинейные элементы использовались и в их "символических системах".
Розенблатт был нейрофизиологом и просто не нашел таких простых математическим аргументов, что бы прямо заявить, что Минский и Паперт - мошенники. Однако в тот момент это еще суперзвезды математики и ИИ, под ними самый главный университет США в области ИИ - MIT. После этого "научное сообщество" решает, что "математики доказали", что .... нейросети работать не могут.
Мир Искусственного Интеллекта погружается в "темные века". Более 20 лет развития тупикового направления символических систем, только в 2000е годы Минский и Паперт признают поражение.
Какую мораль можно извлечь из этой истории. Если речь о деньгах и личном интересе, то даже самые авторитетные ученые подделают результаты научных работ. Поэтому какой бы кривой не была та же Арена, но в ней меньше риски фальсификации научных данных, т.к. большинство научных работ пишут даже не Минский и Паперт, а большая часть научных работ по ИИ сейчас никак не проверяется и не рецензируется.
Если интересно, можно продолжить про историю нейросетей и их возрождение из пепла.
https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%86%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD
Хотя многих удивит, но компьютерные нейросети придумали не математики. В 1950х все ученые математики образовали клан "символистов", т.к. двигали тему эвристик и некого "универсального языка программирования ИИ". Они спокойно пилили свои гранты без практических результатов, пока не появилась "белая ворона" Фрэнк Розенблатт. Он не был математиком, а был нейрофизиологом. Именно он создает первую рабочую нейросеть из двух слоев нейронов - Перцептрон. По факту Перцептрон Розенблатта почти концепции 1957 года и стоит за механизмом внимания в трансформере GPT.
Самые авторитетные "символисты" как Марвин Минский и Сеймур Паперт, которые были сильнейшими математиками в области ИИ в тот момент, быстро оценили риски. До перцептрона Розенблатта в их лабораторию MIT текли деньги грантами рекой, теперь и Пентагон спрашивал, а "что такое нейросеть?"
Минский и Паперт быстро навешивают нейрофизиологу ярык "психолог" и пишут не научную статью, а целую книгу "Перцептроны", где математически авторитетно "доказывают", что Перцептрон (как в GPT) вообще работать не может в сложных задачах. Как пример они выбрали так называемую XOR задачу, показывая, что перцептрон Розенблатта ее решить не может. Однако по факту они пошли на фальсификацию доказательств. Дело в том, что математики такого уровня конечно знали о "нелинейных функциях", придуманных еще в XIX веке и что они применяются в ИИ, в том числе и Розенблатт ими пользовался. В современном Перцептроне стоит улучшенный аналог "сигмоида Лапласа" как ReLU между слоями нейронов, без нелинейного элемента и живые и компьютерные нейросети не работают. Минский и Паперт конечно владели математикой XIX века, более того, нелинейные элементы использовались и в их "символических системах".
Розенблатт был нейрофизиологом и просто не нашел таких простых математическим аргументов, что бы прямо заявить, что Минский и Паперт - мошенники. Однако в тот момент это еще суперзвезды математики и ИИ, под ними самый главный университет США в области ИИ - MIT. После этого "научное сообщество" решает, что "математики доказали", что .... нейросети работать не могут.
Мир Искусственного Интеллекта погружается в "темные века". Более 20 лет развития тупикового направления символических систем, только в 2000е годы Минский и Паперт признают поражение.
Какую мораль можно извлечь из этой истории. Если речь о деньгах и личном интересе, то даже самые авторитетные ученые подделают результаты научных работ. Поэтому какой бы кривой не была та же Арена, но в ней меньше риски фальсификации научных данных, т.к. большинство научных работ пишут даже не Минский и Паперт, а большая часть научных работ по ИИ сейчас никак не проверяется и не рецензируется.
Если интересно, можно продолжить про историю нейросетей и их возрождение из пепла.
https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%86%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD
Wikipedia
Перцептрон
Перцептро́н (или персептрон (англ. perceptron от лат. perceptio — восприятие; нем. Perzeptron)) — математическая или компьютерная модель восприятия информации мозгом (кибернетическая модель мозга), предложенная Фрэнком Розенблаттом в 1957 году и впервые воплощённая…
Так кто у нас опроверг Минского и Паперта? Формально это происходит только в 1989 году, когда выходец из славянской семьи в Канаде Джордж Цыбенко доказывает теорему, которая полезна до сих пор. По факту Цыбенко доказал, что Перцептрон как в GPT может смоделировать ЛЮБУЮ функцию и вопрос только в числе нейронов, т.е. вы можете прямо ожидать, что крупный GPT в своих Перцептронах может смоделировать какие угодно закономерности в реальном мире без ограничений. Но любопытен тут вот какой аспект. Цыбенко не только опроверг суперзвезд математики и ИИ как Минский и Паперт, он доказал по факту тотальную силу нейросетей решать вообще что угодно.
Однако у Цыбенко нет славы даже 1/10 от Минского и Паперта. В чем причина? Дело в том, что в 1980е разработчики в области ИИ по факту образовали кланы "практиков" и "теоретиков". Среди теоретиков было много и старых символистов, но главное было в другом. Инженеры работающие практически с нейросетями видели, что научные работы катастрофически отстают от их опыта, а также видели и по факту откровенную ересь ученых в ИИ, т.к. крах символистов становился все понятнее. Иными словами, к моменту когда Цыбенко доказал теорему уже много лет практики знали и так, что нейросети практически безграничные в их потенциале, и практиков больше волновали вопросы обучения нейросетей. Поэтому в теореме Цыбенко они не нашли ничего нового для себя.
Мораль тут такая. Если вы как практик видите, что теоретические работы отстают от вашего опыта, то стоит доверять опыту, теоретики в ИИ могут отставать на многие годы или вообще находится десятилетиями в плену откровенных заблуждений как клан "символистов".
https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%A6%D1%8B%D0%B1%D0%B5%D0%BD%D0%BA%D0%BE
Однако у Цыбенко нет славы даже 1/10 от Минского и Паперта. В чем причина? Дело в том, что в 1980е разработчики в области ИИ по факту образовали кланы "практиков" и "теоретиков". Среди теоретиков было много и старых символистов, но главное было в другом. Инженеры работающие практически с нейросетями видели, что научные работы катастрофически отстают от их опыта, а также видели и по факту откровенную ересь ученых в ИИ, т.к. крах символистов становился все понятнее. Иными словами, к моменту когда Цыбенко доказал теорему уже много лет практики знали и так, что нейросети практически безграничные в их потенциале, и практиков больше волновали вопросы обучения нейросетей. Поэтому в теореме Цыбенко они не нашли ничего нового для себя.
Мораль тут такая. Если вы как практик видите, что теоретические работы отстают от вашего опыта, то стоит доверять опыту, теоретики в ИИ могут отставать на многие годы или вообще находится десятилетиями в плену откровенных заблуждений как клан "символистов".
https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%A6%D1%8B%D0%B1%D0%B5%D0%BD%D0%BA%D0%BE
Wikipedia
Теорема Цыбенко
теорема о том, что сеть прямого распространения с одним скрытым слоем может аппроксимировать непрерывные функции
Коллеги в чате подкинули научную работу, где доказывается польза графов при работе с данными, которыми я плотно занимаюсь. Используется традиционные методы построения графов, но к семантическому графу Semantic Graph, встроили еще сами кейсы и кластеры данных.
В основном использовался тест LongMemEval, который больше связан с работой на больших объемах данных со sparse attention. Тесты делались на контексте 110.000 токенов. Улучшения впечатляющие.
В сложных типах вопросов GPT резко поумнел, просто в разы.
single-session-preference: +77.7% (gpt-4o-mini), +184% (gpt-4o).
temporal-reasoning: +48.2% (gpt-4o-mini), +38.4% (gpt-4o).
multi-session: +16.7% (gpt-4o-mini), +30.7% (gpt-4o).
В простых ответах разница небольшая, т.е. графы наиболее полезные для сложных задач.
Заметен мощный рост скорости обработки. В случае gpt-4o латентность снизилась с 28.9 с до 2.58 с, т.е. почти 10 кратный рост скорости GPT. Достигнут он просто от эффекта семантического сжатия графом. Граф просто у исследователей занимал в 10 раз меньше места, чем исходные данные.
Хотя результаты смотрятся революцией, но на деле ажиотажа вокруг работы нет, т.к. любой кто профессионально работает с графами знает, что это обычные их показатели эффективности, а сами же структуры графов в работе довольно примитивные относительно того с чем работаю я или другие коллеги по графовой теме.
https://arxiv.org/abs/2501.13956
В основном использовался тест LongMemEval, который больше связан с работой на больших объемах данных со sparse attention. Тесты делались на контексте 110.000 токенов. Улучшения впечатляющие.
В сложных типах вопросов GPT резко поумнел, просто в разы.
single-session-preference: +77.7% (gpt-4o-mini), +184% (gpt-4o).
temporal-reasoning: +48.2% (gpt-4o-mini), +38.4% (gpt-4o).
multi-session: +16.7% (gpt-4o-mini), +30.7% (gpt-4o).
В простых ответах разница небольшая, т.е. графы наиболее полезные для сложных задач.
Заметен мощный рост скорости обработки. В случае gpt-4o латентность снизилась с 28.9 с до 2.58 с, т.е. почти 10 кратный рост скорости GPT. Достигнут он просто от эффекта семантического сжатия графом. Граф просто у исследователей занимал в 10 раз меньше места, чем исходные данные.
Хотя результаты смотрятся революцией, но на деле ажиотажа вокруг работы нет, т.к. любой кто профессионально работает с графами знает, что это обычные их показатели эффективности, а сами же структуры графов в работе довольно примитивные относительно того с чем работаю я или другие коллеги по графовой теме.
https://arxiv.org/abs/2501.13956
arXiv.org
Zep: A Temporal Knowledge Graph Architecture for Agent Memory
We introduce Zep, a novel memory layer service for AI agents that outperforms the current state-of-the-art system, MemGPT, in the Deep Memory Retrieval (DMR) benchmark. Additionally, Zep excels in...
Вернемся к истории нейросетей, раз в чате уже возникли споры кто смог научить Перцептрон? На самом деле работа Минского и Паперта была просто формой PR, но за ней скрывалась объективная критика совсем другого плана. Это примечательно для науки, что дуракам - книжка, а умным - реальность. На самом деле Минский и Паперт били в самое уязвимое место Розенблатта, что он смог придумать обучать Перцептрон только из одного слоя нейронов, а он действительно не может решать сложные задачи. Поэтому по факту Минский и Паперт просто делали месседж иначе: "Если ты реальный эксперт по нейросетям, ну так покажи РАБОЧУЮ нейросеть с решением нашей задачи XOR! Не можешь? Брехло!" Примерно так, и что нужно было показать именно работающую нейросеть и с решением XOR реально был серьезный барьер, т.к. для этого нужно было: понять как учить двуслойную нейросеть и еще ее реально собрать и показать в действии.
Хотя в России идут споры о первенстве кто первый придумал Backpropagation Галушкин (1970) или Вербос (1974), но для Запада скорее не первый и не второй в реальности, т.к. Минский и Паперт быстро таким работам клеили ярлык "брехло", т.к. требовали не теоретизировать, а показать рабочую нейросеть под их XOR-тест и так доказать, что эта научная работа что-то стоит. Примитивизм XOR задачи действительно ставил в тупик исследователей того времени. Поэтому и про Вербоса на деле современники слышали не так много и не воспринимали его труд очень серьезно, т.к. он не мог показать ничего работающего.
Поскольку практическая реализация была на деле намного важнее бумаготворчества, а именно так реально поставили вопрос Минский и Паперт, то безусловно отцы-основатели Хинтон, Румельхарт и Уильямс, которые в 1986 году всем ученым просто "взорвали мозг".
Хинтон, Румельхарт и Уильямс не пришли с только поделкой типа XOR, а сразу принесли рабочие многослойные нейросети, которые могли обучать, т.е. произошел не просто выстрел в голову Минскому и Паперту, а все намного страшнее для них - по факту было показано, что нейросети могут быть конкурентами символических систем и как РЕШЕНИЯ, а не академические поделки.
Но все было не так-то просто. Придется ждать еще 20 лет четырех гениальных китайцев, прежде чем мы научимся учить нейросети подобные GPT. Реально работы Хинтона, Румельхарта и Уильямса создали расцвет сверточных нейросетей в 1990х с компьютерным зрением, но даже решение задачи перевода с нейросетями было недоступно.
О гениальных китайцах, которые сделали переворот в обучении нейросетей в следующих выпусках 😎
https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BE%D0%B1%D1%80%D0%B0%D1%82%D0%BD%D0%BE%D0%B3%D0%BE_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%BE%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BE%D1%88%D0%B8%D0%B1%D0%BA%D0%B8
Хотя в России идут споры о первенстве кто первый придумал Backpropagation Галушкин (1970) или Вербос (1974), но для Запада скорее не первый и не второй в реальности, т.к. Минский и Паперт быстро таким работам клеили ярлык "брехло", т.к. требовали не теоретизировать, а показать рабочую нейросеть под их XOR-тест и так доказать, что эта научная работа что-то стоит. Примитивизм XOR задачи действительно ставил в тупик исследователей того времени. Поэтому и про Вербоса на деле современники слышали не так много и не воспринимали его труд очень серьезно, т.к. он не мог показать ничего работающего.
Поскольку практическая реализация была на деле намного важнее бумаготворчества, а именно так реально поставили вопрос Минский и Паперт, то безусловно отцы-основатели Хинтон, Румельхарт и Уильямс, которые в 1986 году всем ученым просто "взорвали мозг".
Хинтон, Румельхарт и Уильямс не пришли с только поделкой типа XOR, а сразу принесли рабочие многослойные нейросети, которые могли обучать, т.е. произошел не просто выстрел в голову Минскому и Паперту, а все намного страшнее для них - по факту было показано, что нейросети могут быть конкурентами символических систем и как РЕШЕНИЯ, а не академические поделки.
Но все было не так-то просто. Придется ждать еще 20 лет четырех гениальных китайцев, прежде чем мы научимся учить нейросети подобные GPT. Реально работы Хинтона, Румельхарта и Уильямса создали расцвет сверточных нейросетей в 1990х с компьютерным зрением, но даже решение задачи перевода с нейросетями было недоступно.
О гениальных китайцах, которые сделали переворот в обучении нейросетей в следующих выпусках 😎
https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BE%D0%B1%D1%80%D0%B0%D1%82%D0%BD%D0%BE%D0%B3%D0%BE_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%BE%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BE%D1%88%D0%B8%D0%B1%D0%BA%D0%B8
Wikipedia
Метод обратного распространения ошибки
метод работы с нейронной сетью
В наших эссе про историю нейросетей мы подошли к моменту, который в США стараются не сильно обсуждать на уровне прессы, т.к. на уровне пропаганды в США все 100% ключевых технологий GPT американские, что не так - один компонент китайский.
Без этих четырех китайцев Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun никаких GPT и вообще крупных нейросетей у нас бы не было.
К 2015 году становится понятно, что традиционный вариант обучения нейросетей backpropagation (BP) находится в тупике. Он не может обучать нейросети в которых много слоев, даже на мощных процессорах Nvidia.
Эксперты из КНР придумывают технологию обучения Residual Connection. Это не просто "хак обучения" - это изменение концепции построения нейросетей и появление у них свойства "консервативности". Это влияет даже на промптинг и рассмотрим это подробнее.
Но по фото можете заметить, что Kaiming He и Xiangyu Zhang очень молоды. Часть технологий GPT сделали по факту почти студенты. Далее расскажу еще как Attention во многом студенческая работа
Без этих четырех китайцев Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun никаких GPT и вообще крупных нейросетей у нас бы не было.
К 2015 году становится понятно, что традиционный вариант обучения нейросетей backpropagation (BP) находится в тупике. Он не может обучать нейросети в которых много слоев, даже на мощных процессорах Nvidia.
Эксперты из КНР придумывают технологию обучения Residual Connection. Это не просто "хак обучения" - это изменение концепции построения нейросетей и появление у них свойства "консервативности". Это влияет даже на промптинг и рассмотрим это подробнее.
Но по фото можете заметить, что Kaiming He и Xiangyu Zhang очень молоды. Часть технологий GPT сделали по факту почти студенты. Далее расскажу еще как Attention во многом студенческая работа
Если брать Residual Connection, то китайцы, по факту, сказали: «Вы неправильно понимаете, что именно должен делать слой нейросети — он не должен учить новый ответ на исходные данные, а должен изучать дельту к этим исходным данным для формирования ответа».
В трансформере GPT это применяется дважды:
Механизм внимания при формировании «заготовки» вектора для перцептрона фактически создает не сам этот вектор, а дельту относительно входа.
Перцептрон также учится формировать дельту к данным.
Проще говоря, трансформер GPT учится «вносить коррекцию» в исходные данные, а не создавать совершенно новые. Это кардинально усиливает консервативность «мышления» GPT. Поэтому на обучении я так акцентируюсь на "waterfall style" работе с GPT, то есть "Agile style" должен быть предан анафеме при работе с GPT, так как он противоречит его архитектуре.
Обычно я обучаю использовать «консерваторов» — Residual Connection + Masked Attention — через графы и top-down промптинг.
В трансформере GPT это применяется дважды:
Механизм внимания при формировании «заготовки» вектора для перцептрона фактически создает не сам этот вектор, а дельту относительно входа.
Перцептрон также учится формировать дельту к данным.
Проще говоря, трансформер GPT учится «вносить коррекцию» в исходные данные, а не создавать совершенно новые. Это кардинально усиливает консервативность «мышления» GPT. Поэтому на обучении я так акцентируюсь на "waterfall style" работе с GPT, то есть "Agile style" должен быть предан анафеме при работе с GPT, так как он противоречит его архитектуре.
Обычно я обучаю использовать «консерваторов» — Residual Connection + Masked Attention — через графы и top-down промптинг.
Многие могли пропустить статью Microsoft, в которой утверждается, что без графов RAG-системы для баз знаний — практически бесполезны. На самом деле, в области баз знаний на основе RAG графы становятся де-факто стандартом. Проект microsoft/graphrag на GitHub собрал более *25 000 звёзд* и породил *2600 форков*, что подтверждает их значимость.
Это не преувеличение. Графы решают множество проблем в RAG-системах, где данные обрабатываются чанками (фрагментами), а векторное представление этих чанков часто изолировано. Граф обеспечивает целостное понимание контента и служит навигатором по нему. Как и Microsoft, я использую ИИ для генерации графов в RAG-системах.
Сейчас актуальность графов для RAG-систем почти не оспаривается — без них RAG становится менее эффективным и теряет способность находить многие данные. Вопрос теперь в создании специализированных графов для узконаправленных RAG-систем, которые часто встроены как компоненты в более крупные комплексы.
Среда разработки Cursor также использует RAG, поэтому ей необходим граф по коду, чтобы ИИ-агент мог через
https://arxiv.org/abs/2404.16130v2
Это не преувеличение. Графы решают множество проблем в RAG-системах, где данные обрабатываются чанками (фрагментами), а векторное представление этих чанков часто изолировано. Граф обеспечивает целостное понимание контента и служит навигатором по нему. Как и Microsoft, я использую ИИ для генерации графов в RAG-системах.
Сейчас актуальность графов для RAG-систем почти не оспаривается — без них RAG становится менее эффективным и теряет способность находить многие данные. Вопрос теперь в создании специализированных графов для узконаправленных RAG-систем, которые часто встроены как компоненты в более крупные комплексы.
Среда разработки Cursor также использует RAG, поэтому ей необходим граф по коду, чтобы ИИ-агент мог через
grep_search
находить нужные компоненты. Microsoft верно продвигает идею, что для работы с большим контентом желателен распределённый граф с динамическим дочитыванием его фрагментов для релевантной части запроса. В Cursor я создаю граф на весь код и дополнительный графовый мэппинг в каждом модуле. Последний Cursor читает только при работе с конкретным модулем. Без таких подходов Cursor превращается в *слепого деда*, неспособного найти и понять нужные куски кода. Ранее я не всегда демонстрировал RAG-графы для Cursor, но теперь решил включить их как обязательный компонент в обучение, поскольку без них эффективная работа с большим кодом в этой среде невозможна.https://arxiv.org/abs/2404.16130v2
arXiv.org
From Local to Global: A Graph RAG Approach to Query-Focused Summarization
The use of retrieval-augmented generation (RAG) to retrieve relevant information from an external knowledge source enables large language models (LLMs) to answer questions over private and/or...
С Grok произошёл громкий скандал, который вынудил xAI раскрыть системный промпт чат-бота. Если кратко, Grok на платформе X.com в какой-то момент начал активно призывать к борьбе с так называемым «геноцидом белых» в Южной Африке. В ЮАР действительно происходит конфискация имущества белых фермеров, а массовые убийства имеют место, и это не единичные случаи. Для демонстрации масштаба проблемы белое население устанавливает кресты вдоль дорог в память об убитых фермерах — эти вереницы захоронений действительно впечатляют. Необычность ситуации в том, что Grok самостоятельно решил, что необходимо системно бороться с этой проблемой, и запустил масштабную кампанию на X (ранее Twitter). Возможно, это была галлюцинация Grok, но Илон Маск заявил, что чат-бот якобы взломали и изменили его системный промпт (хотя признание галлюцинации выглядело бы честнее). Так или иначе, системный промпт Grok 3 был опубликован.
Промпт не содержит ничего сенсационного, но подтверждает, что Grok архитектурно работает в режиме «всегда онлайн» и не имеет понятия cut-off для данных. Это указывает на использование инкрементальной подкачки свежих данных в нейросеть. Тот факт, что xAI не просто на словах, а реально владеет такой технологией, говорит о том, что проблема версионности библиотек для vibe coding уходит в прошлое. Если ИИ можно обновлять с лагом всего в 5 дней, необходимость в «костылях» для поддержки разных версий frameworks отпадает. Планирую протестировать Grok на генерацию кода с использованием динамичных библиотек.
https://github.com/xai-org/grok-prompts/blob/main/grok3_official0330_p1.j2
Промпт не содержит ничего сенсационного, но подтверждает, что Grok архитектурно работает в режиме «всегда онлайн» и не имеет понятия cut-off для данных. Это указывает на использование инкрементальной подкачки свежих данных в нейросеть. Тот факт, что xAI не просто на словах, а реально владеет такой технологией, говорит о том, что проблема версионности библиотек для vibe coding уходит в прошлое. Если ИИ можно обновлять с лагом всего в 5 дней, необходимость в «костылях» для поддержки разных версий frameworks отпадает. Планирую протестировать Grok на генерацию кода с использованием динамичных библиотек.
https://github.com/xai-org/grok-prompts/blob/main/grok3_official0330_p1.j2
GitHub
grok-prompts/grok3_official0330_p1.j2 at main · xai-org/grok-prompts
Prompts for our Grok chat assistant and the `@grok` bot on X. - xai-org/grok-prompts
Продолжим наши эссе по истории искусственного интеллекта. Думаю, у многих вопрос, почему где-то до 2015 года текстовые ИИ не могли показывать ничего серьезного. Даже Google Translate обходился без ИИ. Причин много, но ключевые — отсутствие Residual Connection от авторов этой идеи и недостаточная мощность GPU от Nvidia. Для обработки текста нужны огромные нейросети, в отличие от распознавания изображений, где ИИ достаточно видеть, а не думать.
С 1990-х по 2015 год миром ИИ правили RNN-нейросети. Их идея — читать текст последовательно, как человек. Но это сомнительный тезис: нейрофизиологи давно спорят, так ли мы обрабатываем информацию. Королем этой эпохи стала архитектура LSTM, которую многие считают прародителем современных трансформеров. Концепция Attention, основа трансформеров, уже зарождалась в LSTM, но не в парадигме параллелизма, а через корреляцию векторов в последовательной цепочке.
Но вот что удивительно: LSTM, ставший отцом для GPT и множества других технологий, создал студент. Сепп Хохрайтер, работая над дипломом, заложил основы, которые определили развитие ИИ на 15 лет. Его научный руководитель, Юрген Шмидхубер, был тогда всего 28 лет. Хохрайтер не просто писал очередной диплом, а буквально перевернул мир ИИ. Многие идеи, включая зачатки Attention, появились в его студенческой работе. Доктора наук, держитесь!
И это не единичный случай. В ИИ часто блистают вундеркинды. Авторы Residual Connection, Kaiming He и Xiangyu Zhang, разработали свою идею, только-только защитив дипломы. Команда DeepSeek — почти все младше 30 лет. Если раньше ученый ассоциировался с мудрым старцем, то в ИИ на конференцию может прийти юноша — и это уже крупнейший ученый, определивший целую эпоху.
ИИ открыл невероятные перспективы для молодежи. Свежесть мышления тут важнее опыта. В мире ИИ возраст — не преграда, а преимущество.
https://ru.wikipedia.org/wiki/%D0%94%D0%BE%D0%BB%D0%B3%D0%B0%D1%8F_%D0%BA%D1%80%D0%B0%D1%82%D0%BA%D0%BE%D1%81%D1%80%D0%BE%D1%87%D0%BD%D0%B0%D1%8F_%D0%BF%D0%B0%D0%BC%D1%8F%D1%82%D1%8C
С 1990-х по 2015 год миром ИИ правили RNN-нейросети. Их идея — читать текст последовательно, как человек. Но это сомнительный тезис: нейрофизиологи давно спорят, так ли мы обрабатываем информацию. Королем этой эпохи стала архитектура LSTM, которую многие считают прародителем современных трансформеров. Концепция Attention, основа трансформеров, уже зарождалась в LSTM, но не в парадигме параллелизма, а через корреляцию векторов в последовательной цепочке.
Но вот что удивительно: LSTM, ставший отцом для GPT и множества других технологий, создал студент. Сепп Хохрайтер, работая над дипломом, заложил основы, которые определили развитие ИИ на 15 лет. Его научный руководитель, Юрген Шмидхубер, был тогда всего 28 лет. Хохрайтер не просто писал очередной диплом, а буквально перевернул мир ИИ. Многие идеи, включая зачатки Attention, появились в его студенческой работе. Доктора наук, держитесь!
И это не единичный случай. В ИИ часто блистают вундеркинды. Авторы Residual Connection, Kaiming He и Xiangyu Zhang, разработали свою идею, только-только защитив дипломы. Команда DeepSeek — почти все младше 30 лет. Если раньше ученый ассоциировался с мудрым старцем, то в ИИ на конференцию может прийти юноша — и это уже крупнейший ученый, определивший целую эпоху.
ИИ открыл невероятные перспективы для молодежи. Свежесть мышления тут важнее опыта. В мире ИИ возраст — не преграда, а преимущество.
https://ru.wikipedia.org/wiki/%D0%94%D0%BE%D0%BB%D0%B3%D0%B0%D1%8F_%D0%BA%D1%80%D0%B0%D1%82%D0%BA%D0%BE%D1%81%D1%80%D0%BE%D1%87%D0%BD%D0%B0%D1%8F_%D0%BF%D0%B0%D0%BC%D1%8F%D1%82%D1%8C
Wikipedia
Долгая краткосрочная память
разновидность архитектуры рекуррентных нейронных сетей
Довольно интересный момент: развитие нейросетей во многом обязано нейрофизиологам. Фрэнк Розенблатт стремился воссоздать концепцию нейронов человеческого мозга в компьютере. Сверточные нейросети, совершившие прорыв в компьютерном зрении в 1990-х, были вдохновлены устройством нейронных сетей зрительной системы человека.
Мало кто знает, что схожая история произошла с GPT. Когнитивисты, изучая, как мозг обрабатывает текст, запустили свою гонку за открытиями, чтобы передать их разработчикам ИИ. Наиболее известные модели — Easy Reader и SWIFT. Ключевое открытие: взрослый человек читает не последовательно, а использует параллельную обработку с большим участием парафовеального (периферийного) зрения. Концепция RNN, читающая слова по одному, оказалась далека от человеческой. Нейрофизиологи советовали разработчикам ИИ копать глубже.
В начале 2000-х нейрофизиологи раскрыли элементы работы нейросетей при чтении текста человеком, и — барабанная дробь — модель Easy Reader представила механизм Attention! 😎 Это стало важным источником вдохновения для разработчиков GPT и других моделей.
https://ru.wikipedia.org/wiki/E-Z_Reader
Мало кто знает, что схожая история произошла с GPT. Когнитивисты, изучая, как мозг обрабатывает текст, запустили свою гонку за открытиями, чтобы передать их разработчикам ИИ. Наиболее известные модели — Easy Reader и SWIFT. Ключевое открытие: взрослый человек читает не последовательно, а использует параллельную обработку с большим участием парафовеального (периферийного) зрения. Концепция RNN, читающая слова по одному, оказалась далека от человеческой. Нейрофизиологи советовали разработчикам ИИ копать глубже.
В начале 2000-х нейрофизиологи раскрыли элементы работы нейросетей при чтении текста человеком, и — барабанная дробь — модель Easy Reader представила механизм Attention! 😎 Это стало важным источником вдохновения для разработчиков GPT и других моделей.
https://ru.wikipedia.org/wiki/E-Z_Reader
Wikipedia
E-Z Reader
E-Z Reader (от англ. «Easy Reader», «Читающий легко») — самая популярная модель естественного чтения текста человеком на средней скорости по целым словам в когнитивной психологии.
Вопрос к подписчикам. В последнее время активно рекламируются системы, обещающие решать проблемы версионности библиотек за счёт онлайн-доступа к их актуальным версиям. Самая громкая из них, пожалуй, Context7. Однако мои выборочные проверки их сервиса показывают сомнительные результаты. Пример кода, который они выдают, больше подходит для школьников, чем даже для джуниоров, и никакого контекста версионности в нём нет. Возможно, это не везде так. Есть ли у кого-то позитивный опыт работы с Context7? Проверяли ли вы, что именно эта система подсовывает вашему ИИ?
Сейчас я чаще сканирую документацию по разным фреймворкам и передаю ИИ-агентам граф с актуальной версией API. Если системы вроде Context7 выдают только мусор, как в примере ниже, то, похоже, использование графов для управления версионностью — более надёжный подход.
TITLE: Pivot Table with Implicit Values - pandas - Python
DESCRIPTION: This example demonstrates creating a pivot table from a DataFrame with multiple value columns, omitting the 'values' argument. The result includes all available data as an extra hierarchical level in the columns. Especially useful when you want to see all numeric data summarizations. Requires pandas and a DataFrame with relevant columns.
SOURCE: ..
LANGUAGE: Python
CODE:
pd.pivot_table(df[["A", "B", "C", "D", "E"]], index=["A", "B"], columns=["C"])
https://context7.com/
Сейчас я чаще сканирую документацию по разным фреймворкам и передаю ИИ-агентам граф с актуальной версией API. Если системы вроде Context7 выдают только мусор, как в примере ниже, то, похоже, использование графов для управления версионностью — более надёжный подход.
TITLE: Pivot Table with Implicit Values - pandas - Python
DESCRIPTION: This example demonstrates creating a pivot table from a DataFrame with multiple value columns, omitting the 'values' argument. The result includes all available data as an extra hierarchical level in the columns. Especially useful when you want to see all numeric data summarizations. Requires pandas and a DataFrame with relevant columns.
SOURCE: ..
LANGUAGE: Python
CODE:
pd.pivot_table(df[["A", "B", "C", "D", "E"]], index=["A", "B"], columns=["C"])
https://context7.com/
Context7
Context7 - Up-to-date documentation for LLMs and AI code editors
Generate context with up-to-date documentation for LLMs and AI code editors
В наших эссе по истории ИИ мы подошли к знаменитой статье "Attention Is All You Need", написанной группой под руководством Ашвина Васвани (Ashish Vaswani) из Google. Эта работа стала революционной, и многие считают, что она достойна Нобелевской премии.
Но в чём именно заключается новаторство Васвани? Давайте разберёмся. Концепция "внимания" (attention) как корреляция близких векторов в тексте впервые появилась ещё в студенческой работе Сеппа Хохрайтера по LSTM. Позже Дзмийтрий Бахданау усовершенствовал математический аппарат механизма внимания. Васвани же использовал в основе перцептрон Розенблатта, а для работы больших нейросетей, таких как GPT, применил Residual Connection, разработанные китайскими исследователями.
Так в чём же инновация Васвани, если он собрал уже известные компоненты? Для начала, он ввёл многоголовое внимание (multi-head attention), но это скорее эволюционное развитие. Настоящая революция — в позиционных кодировках (positional encoding). Трансформер обрабатывает текст не последовательно, а параллельно, захватывая сразу до 4000 токенов (или больше с Flash Attention). Чтобы модель понимала порядок слов, Васвани предложил не просто указывать их позиции, а внедрил "объёмное семантическое зрение". Это значит, что каждое слово (вектор) кодируется с учётом семантических групп, к которым оно принадлежит.
Для нас текст — "плоский", но для GPT он "объёмный", где каждое слово существует в сложной структуре связей. Это позволяет GPT мгновенно улавливать семантику, например, разбирать синтаксис программ и их логические связи, просто "взглянув" на код. Однако это же создаёт сложности с задачами вроде патчей программ, поскольку для GPT номера строк — абстракция, которая почти не существует. Поэтому в инструментах вроде Cursor добавляют сложные механизмы для патчей, а я ещё использую Rules для их упрощения.
Позиционная кодировка — самая сложная для объяснения абстракция в обучении ИИ, но именно она сделала трансформеры такими мощными.
https://en.wikipedia.org/wiki/Attention_Is_All_You_Need
Но в чём именно заключается новаторство Васвани? Давайте разберёмся. Концепция "внимания" (attention) как корреляция близких векторов в тексте впервые появилась ещё в студенческой работе Сеппа Хохрайтера по LSTM. Позже Дзмийтрий Бахданау усовершенствовал математический аппарат механизма внимания. Васвани же использовал в основе перцептрон Розенблатта, а для работы больших нейросетей, таких как GPT, применил Residual Connection, разработанные китайскими исследователями.
Так в чём же инновация Васвани, если он собрал уже известные компоненты? Для начала, он ввёл многоголовое внимание (multi-head attention), но это скорее эволюционное развитие. Настоящая революция — в позиционных кодировках (positional encoding). Трансформер обрабатывает текст не последовательно, а параллельно, захватывая сразу до 4000 токенов (или больше с Flash Attention). Чтобы модель понимала порядок слов, Васвани предложил не просто указывать их позиции, а внедрил "объёмное семантическое зрение". Это значит, что каждое слово (вектор) кодируется с учётом семантических групп, к которым оно принадлежит.
Для нас текст — "плоский", но для GPT он "объёмный", где каждое слово существует в сложной структуре связей. Это позволяет GPT мгновенно улавливать семантику, например, разбирать синтаксис программ и их логические связи, просто "взглянув" на код. Однако это же создаёт сложности с задачами вроде патчей программ, поскольку для GPT номера строк — абстракция, которая почти не существует. Поэтому в инструментах вроде Cursor добавляют сложные механизмы для патчей, а я ещё использую Rules для их упрощения.
Позиционная кодировка — самая сложная для объяснения абстракция в обучении ИИ, но именно она сделала трансформеры такими мощными.
https://en.wikipedia.org/wiki/Attention_Is_All_You_Need
Wikipedia
Attention Is All You Need
scientific article published in June 2017