Так, здесь будет без купюр и излишней политкорректности про всякие вычислительные модели для начала, и научные парадигмы, лежащие в их основе. Еще про взаимодействие людей и машин, и что такое гуманитарное и точное знание, как их увидеть и различить, и чем важно каждое из них, и как обходить подальше их некалиброванную взвесь. Про философию, методологию и историю науки, про модели психики, восприятия и мышления. А также про передний край этого всего. Наверное. Вопросы приветствуются.
Вся шумиха с «этичностью» и «безопасностью» вокруг моделей на мой взгляд имеет больше религиозные корни, чем сознательные. Чтобы понять, что это за ветер такой, надо найти в википедии следующие слова: Transhumanism, Technological singularity, Longtermism, Effective Altruism. И проследить их истоки, историю и ключевых деятелей. Вы увидите что в основе — научная фантастика, религия и политика.
Надо ли работать над управляемостью, предсказуемостью, устойчивостью, интерпретируемостью текущего поколения нейросетей? Ну конечно. Люди и работают. Надо ли на серьезных щах рассуждать об «этичности» (когда ты всю жизнь занимался другими вещами), «мы все умрем» и «немедленно всех остановить, разбомбить и запретить»? Мне трудно это воспринимать. Как будто стал свидетелем чего-то непристойного. Это политика, популизм и манипуляции, а не ответственность и исследование. Как известно, морализаторы — самые аморальные товарищи из всех.
А тем кто предпочитает делать дело, вот свежая интересная статья по интерпретируемости:
🐳 Interpretability at Scale: Identifying Causal Mechanisms in Alpaca
Надо ли работать над управляемостью, предсказуемостью, устойчивостью, интерпретируемостью текущего поколения нейросетей? Ну конечно. Люди и работают. Надо ли на серьезных щах рассуждать об «этичности» (когда ты всю жизнь занимался другими вещами), «мы все умрем» и «немедленно всех остановить, разбомбить и запретить»? Мне трудно это воспринимать. Как будто стал свидетелем чего-то непристойного. Это политика, популизм и манипуляции, а не ответственность и исследование. Как известно, морализаторы — самые аморальные товарищи из всех.
А тем кто предпочитает делать дело, вот свежая интересная статья по интерпретируемости:
🐳 Interpretability at Scale: Identifying Causal Mechanisms in Alpaca
Языковое разнообразие, сравнительно-историческое языкознание и лингвистическая типология всегда вдохновляющие области. Как еще можно закодировать и выразить смысл, кроме уже известного тебе по родному языку способа? Какие еще смыслы кроме привычных тебе можно создать и выразить? Как думают и что видят максимально непохожие на тебя люди? Что означают эти непонятные закорючки? Мы, вероятно, еще вернемся, к этим вопросам, а пока - обзор методов машинного обучения в применении к древним языкам. Вкусняшка.
🐙 Machine Learning for Ancient Languages: A Survey
🦉 Список упомянутых в статье задач и публикаций
🐙 Machine Learning for Ancient Languages: A Survey
🦉 Список упомянутых в статье задач и публикаций
Чтобы немного сбавить градус общественного экстаза, и дать голос другому полюсу, вот письмо Марка Андриссена:
🦋 Why AI Will Save the World
А вот несколько интересных ссылок из него:
🔸Pessimists Archive (велосипед уничтожит мир!)
🔸A Warning About AI (1863)
🔸The Original AI Doomer: Dr. Norbert Wiener (1959)
Я же со своей стороны не занимаю никакого полюса. Полагаю, что надо сохранять внимание, трезвость, и продолжать работать и общаться. Я вообще не приветствую раскачку народных масс и истерики с любым знаком. Как и делание умного лица в вещах, о которых ты не знаешь. Да и о которых знаешь - тоже 🤗 Как сказал один уважамый человек, как только вы решили, что знаете, ваше мышление закончилось.
🦋 Why AI Will Save the World
А вот несколько интересных ссылок из него:
🔸Pessimists Archive (велосипед уничтожит мир!)
🔸A Warning About AI (1863)
🔸The Original AI Doomer: Dr. Norbert Wiener (1959)
Я же со своей стороны не занимаю никакого полюса. Полагаю, что надо сохранять внимание, трезвость, и продолжать работать и общаться. Я вообще не приветствую раскачку народных масс и истерики с любым знаком. Как и делание умного лица в вещах, о которых ты не знаешь. Да и о которых знаешь - тоже 🤗 Как сказал один уважамый человек, как только вы решили, что знаете, ваше мышление закончилось.
🐛 Хорошие обзорные работы по текущему состоянию LLM:
A Comprehensive Overview of Large Language Models
Техническое саммари различий и вариаций текущих языковых моделей. Со всеми деталями архитектур, параметров обучения, способов оценки и списками инсайтов по итогу создания каждой из них.
Current Best Practices for Training LLMs from Scratch
Лучшие практики обучения LLM с нуля, как и написано.
Challenges and Applications of Large Language Models
Обзор открытых проблем языковых моделей и наиболее продуктивных сфер применения.
A Comprehensive Overview of Large Language Models
Техническое саммари различий и вариаций текущих языковых моделей. Со всеми деталями архитектур, параметров обучения, способов оценки и списками инсайтов по итогу создания каждой из них.
Current Best Practices for Training LLMs from Scratch
Лучшие практики обучения LLM с нуля, как и написано.
Challenges and Applications of Large Language Models
Обзор открытых проблем языковых моделей и наиболее продуктивных сфер применения.
🐣 DeepMind опубликовал анонс своего присутствия на ICML 2023, которая пройдет 23-29 июля в Гонолулу, на Гавайяяах. В этом году они представляют 80 статей, это не считая работ от Google Brain, с которым они слились. Среди них выделю несколько субъективно (как обещал) интересных:
Human-Timescale Adaptation in an Open-Ended Task Space
In this work, we demonstrate that training an RL agent at scale leads to a general in-context learning algorithm that can adapt to open-ended novel embodied 3D problems as quickly as humans. In a vast space of held-out environment dynamics, our adaptive agent (AdA) displays on-the-fly hypothesis-driven exploration, efficient exploitation of acquired knowledge, and can successfully be prompted with first-person demonstrations.
Distilling Internet-Scale Vision-Language Models into Embodied Agents
Our work outlines a new and effective way to use internet-scale VLMs, repurposing the generic language grounding acquired by such models to teach task-relevant groundings to embodied agents.
Settling the Reward Hypothesis
The reward hypothesis posits that, "all of what we mean by goals and purposes can be well thought of as maximization of the expected value of the cumulative sum of a received scalar signal (reward)." We aim to fully settle this hypothesis.
Adapting to game trees in zero-sum imperfect information games
Imperfect information games (IIG) are games in which each player only partially observes the current game state. We study how to learn ϵ-optimal strategies in a zero-sum IIG through self-play with trajectory feedback. (как играть и выигрывать в игры с неполной информацией, например, в жизнь).
Understanding plasticity in neural networks
Нейропластичность в искусственных нейронных сетях, и как она может потеряться в результате обучения, и как её не терять. (!)
Memory-Based Meta-Learning on Non-Stationary Distributions
This research could help explain the type of in-context learning that emerges in large language models by studying neural networks meta-trained on data sources whose statistics change spontaneously, such as in natural language prediction. (моих компетенций не хватает, чтобы по абстракту с ходу понять суть, но хватает, чтобы понять, что это круто)
Resurrecting Recurrent Neural Networks for Long Sequences
We introduce a new family of recurrent neural networks (RNNs) that perform better on long-term reasoning tasks to unlock the promise of these models for the future.
И таких еще 73 штуки… Читать не перечитать.
Human-Timescale Adaptation in an Open-Ended Task Space
In this work, we demonstrate that training an RL agent at scale leads to a general in-context learning algorithm that can adapt to open-ended novel embodied 3D problems as quickly as humans. In a vast space of held-out environment dynamics, our adaptive agent (AdA) displays on-the-fly hypothesis-driven exploration, efficient exploitation of acquired knowledge, and can successfully be prompted with first-person demonstrations.
Distilling Internet-Scale Vision-Language Models into Embodied Agents
Our work outlines a new and effective way to use internet-scale VLMs, repurposing the generic language grounding acquired by such models to teach task-relevant groundings to embodied agents.
Settling the Reward Hypothesis
The reward hypothesis posits that, "all of what we mean by goals and purposes can be well thought of as maximization of the expected value of the cumulative sum of a received scalar signal (reward)." We aim to fully settle this hypothesis.
Adapting to game trees in zero-sum imperfect information games
Imperfect information games (IIG) are games in which each player only partially observes the current game state. We study how to learn ϵ-optimal strategies in a zero-sum IIG through self-play with trajectory feedback. (как играть и выигрывать в игры с неполной информацией, например, в жизнь).
Understanding plasticity in neural networks
Нейропластичность в искусственных нейронных сетях, и как она может потеряться в результате обучения, и как её не терять. (!)
Memory-Based Meta-Learning on Non-Stationary Distributions
This research could help explain the type of in-context learning that emerges in large language models by studying neural networks meta-trained on data sources whose statistics change spontaneously, such as in natural language prediction. (моих компетенций не хватает, чтобы по абстракту с ходу понять суть, но хватает, чтобы понять, что это круто)
Resurrecting Recurrent Neural Networks for Long Sequences
We introduce a new family of recurrent neural networks (RNNs) that perform better on long-term reasoning tasks to unlock the promise of these models for the future.
И таких еще 73 штуки… Читать не перечитать.
Разобрал одну из статей подробнее на семинаре:
https://www.youtube.com/watch?v=h_xcxkn5I8o
https://www.youtube.com/watch?v=h_xcxkn5I8o
YouTube
Павел Лебедев "Открытые проблемы и приложения больших языковых моделей" (11.08.2023)
Challenges and Applications of Large Language Models
https://arxiv.org/abs/2307.10169 (23 июля 2023)
В статье представлен обзор:
1) открытых на данный момент проблем языковых моделей, и имеющихся подходов к ним (16 разделов)
2) наиболее продуктивных приложений…
https://arxiv.org/abs/2307.10169 (23 июля 2023)
В статье представлен обзор:
1) открытых на данный момент проблем языковых моделей, и имеющихся подходов к ним (16 разделов)
2) наиболее продуктивных приложений…
🔥3
🐞Представляю рубрику “основания”.
В ней будут появляться классические учебники по различным областям искуственного интеллекта, и связанным с ним. Сюда же пожалуй отнесу обзоры современных школ и направлений. Способ обрести прочный, широкий и глубокий фундамент.
Сегодня у нас - классический ИИ первой волны, он же GOFAI, он же Good Old-Fashioned Artificial Intelligence, он же символический (symbolic) подход к ИИ (в противопоставлении коннекционистскому). По этой теме предлагаю две хорошие книги на выбор:
🐢Artificial Intelligence: Foundations of Computational Agents. David L. Poole, Alan K. Mackworth. 4th printing, 2019.
Всего 770 стр. содержания, общий объем с приложениями и библиографией 818 стр. В этом году вышло 3-е издание, доступно в электронном виде.
Первая книга в максимально сжатой, формальной манере подает все ключевые задачи и подходы, выстраивая их в общее дизайн-пространство. Затрагиваются темы рассуждения, планирования, обучения в пространствах с полной информацией и в пространствах с неопределенностью. Плюс представление знаний, теория игр и многоагентные системы. Кому нужно быстрое, структурное и системное понимание, тем сюда.
🦖Artificial Intelligence: A Modern Approach. Stuart Russell, Peter Norvig. Fourth Edition, 2021.
2145 страниц, из которых основного содержания 1862 стр., остальное - приложения, библиография, справочный аппарат.
Вторая книга значительно объемнее. Она чуть более нарративна, в ней больше исторических отсылок, примеров, иллюстраций, и красивых врезок. Также, есть выделенные секции по компьютерному зрению, обработке языка и роботам. Но кажется, что по этим темам лучше читать отдельные произведения. Кому смаковать долгими вечерами истории про ИИ под чаёк - сюда.
В обеих книгах есть небольшие разделы про историю ИИ и про влияние на общество. Обе книги используются в курсах ИИ в ВУЗах. Обе в разных редакциях не трудно найти и в бумажном и в электронном виде.
#основания
В ней будут появляться классические учебники по различным областям искуственного интеллекта, и связанным с ним. Сюда же пожалуй отнесу обзоры современных школ и направлений. Способ обрести прочный, широкий и глубокий фундамент.
Сегодня у нас - классический ИИ первой волны, он же GOFAI, он же Good Old-Fashioned Artificial Intelligence, он же символический (symbolic) подход к ИИ (в противопоставлении коннекционистскому). По этой теме предлагаю две хорошие книги на выбор:
🐢Artificial Intelligence: Foundations of Computational Agents. David L. Poole, Alan K. Mackworth. 4th printing, 2019.
Всего 770 стр. содержания, общий объем с приложениями и библиографией 818 стр. В этом году вышло 3-е издание, доступно в электронном виде.
Первая книга в максимально сжатой, формальной манере подает все ключевые задачи и подходы, выстраивая их в общее дизайн-пространство. Затрагиваются темы рассуждения, планирования, обучения в пространствах с полной информацией и в пространствах с неопределенностью. Плюс представление знаний, теория игр и многоагентные системы. Кому нужно быстрое, структурное и системное понимание, тем сюда.
🦖Artificial Intelligence: A Modern Approach. Stuart Russell, Peter Norvig. Fourth Edition, 2021.
2145 страниц, из которых основного содержания 1862 стр., остальное - приложения, библиография, справочный аппарат.
Вторая книга значительно объемнее. Она чуть более нарративна, в ней больше исторических отсылок, примеров, иллюстраций, и красивых врезок. Также, есть выделенные секции по компьютерному зрению, обработке языка и роботам. Но кажется, что по этим темам лучше читать отдельные произведения. Кому смаковать долгими вечерами истории про ИИ под чаёк - сюда.
В обеих книгах есть небольшие разделы про историю ИИ и про влияние на общество. Обе книги используются в курсах ИИ в ВУЗах. Обе в разных редакциях не трудно найти и в бумажном и в электронном виде.
#основания
👍1
🐬 Towards a Theoretical Neuroscience: from Cell Chemistry to Cognition, Springer Series in Cognitive and Neural Systems, Volume 8. L. Andrew Coward. Springer Science 2013.
Книга читается не просто, если вы не специалист в химии клетки и анатомии. Она бывает занудна, много повторяется, игнорирует правила усвоения информации, а в некоторых главах и претенциозна на мой вкус.
Но у меня нет ни одного вопроса к ее содержанию. Это, вероятно, лучший обзор всего, что известно о строении и работе мозга: от внутренней биохимии нейронов, через их строение, соединение и передачу сигналов, к анатомическим структурам мозга, информационным процессам в них и, наконец, высшим психическим функциям и наблюдаемым в опыте феноменам.
Детализация описаний такова, что прямо со страниц можно брать и собирать экспериментальные архитектуры. Кроме того, полезно знать исходники, как устроена система которую мы абстрагируем и моделируем в формальных искуственных нейронных сетях? Какие упрощения и допущения мы принимаем?
Также заставляет задуматься, а кто он такой этот ваш AGI? Что он должен делать и как вы его узнаете? Какое на него ТЗ? Какие у него самого ключевые цели? Должен ли он воспроизводить всю биологическую машинерию поддержания собственного существования, питания, защиты и размножения? Обязан ли он существовать автономно? Должен ли он решать информационные задачи, или свободно выживать в лесу и пустыне? Кажется, что единого ответа на эти вопросы не существует.
В отдельных главах меняются местами эмпирические предпосылки и сделанные из них предположения — автор претендует на некоторое универсальное теоретическое понимание, в математическом смысле (у него многолетний опыт проектирования электронных схем). На мой взгляд, это как раз ошибка. Чтобы лучше в этом разобраться имело бы смысл сравнить описанные структуры человеческого мозга с устройством мозгов, например, птиц и осьминогов. Но подобные обзоры мне пока не известны. Если знаете - присылайте.
PS. По вопросам сознания, свободы воли и т.п. - не сюда, хотя про это и есть краткая глава в конце.
#основания
Книга читается не просто, если вы не специалист в химии клетки и анатомии. Она бывает занудна, много повторяется, игнорирует правила усвоения информации, а в некоторых главах и претенциозна на мой вкус.
Но у меня нет ни одного вопроса к ее содержанию. Это, вероятно, лучший обзор всего, что известно о строении и работе мозга: от внутренней биохимии нейронов, через их строение, соединение и передачу сигналов, к анатомическим структурам мозга, информационным процессам в них и, наконец, высшим психическим функциям и наблюдаемым в опыте феноменам.
Детализация описаний такова, что прямо со страниц можно брать и собирать экспериментальные архитектуры. Кроме того, полезно знать исходники, как устроена система которую мы абстрагируем и моделируем в формальных искуственных нейронных сетях? Какие упрощения и допущения мы принимаем?
Также заставляет задуматься, а кто он такой этот ваш AGI? Что он должен делать и как вы его узнаете? Какое на него ТЗ? Какие у него самого ключевые цели? Должен ли он воспроизводить всю биологическую машинерию поддержания собственного существования, питания, защиты и размножения? Обязан ли он существовать автономно? Должен ли он решать информационные задачи, или свободно выживать в лесу и пустыне? Кажется, что единого ответа на эти вопросы не существует.
В отдельных главах меняются местами эмпирические предпосылки и сделанные из них предположения — автор претендует на некоторое универсальное теоретическое понимание, в математическом смысле (у него многолетний опыт проектирования электронных схем). На мой взгляд, это как раз ошибка. Чтобы лучше в этом разобраться имело бы смысл сравнить описанные структуры человеческого мозга с устройством мозгов, например, птиц и осьминогов. Но подобные обзоры мне пока не известны. Если знаете - присылайте.
PS. По вопросам сознания, свободы воли и т.п. - не сюда, хотя про это и есть краткая глава в конце.
#основания
❤1
Утверждение: нельзя измерить разумность. 1) известные в среде психологов проблемы с любым определением разумности: будучи формализованной она перестает быть разумом, а становится лишь одним из его продуктов. Так что «проблема переноса определения аи» - на самом фундаментальном уровне, это не какой-то недостаток понимания или особенность психологии. +Известные проблемы с iq-тестами и «множественностью интеллектов». 2) при тестировании достаточно развитого интеллекта он сам начнет тестировать тебя. Зуб даю. Причем если он прям сильно развит и захочет - то ты ничего и не заметишь. В повседневной жизни это сплошь и рядом. Если долго всматриваться в разумность, разумность начнет всматриваться в тебя. 3) «проблема элайнмента» в общем виде мало того что надуманна, она еще и не решаема. Любой «элайнмент» будет противоречить разумности и отуплять. Мы это хорошо видим даже на текущем примитивном уровне. Что не отрицает прагматической полезности каких-то его видов.
Доброе утро!
Доброе утро!
Немного новостей.
🌷Курс Neuroscience for machine learners от Imperial College London, доступ ко всем лекциям и материалам открытый.
- https://neuro4ml.github.io
- https://www.youtube.com/playlist?list=PL09WqqDbQWHErc8xOyWdKpNEk78Jjk0EL
🎸22-27 октября прошла Нейроинформатика-2023, одно из самых интересных событий в России.
- https://neuroinfo.ru/
Программа файлом:
https://neuroinfo.ru/archive/2023/program2023.pdf
Программа на сайте (там несколько разделов):
https://neuroinfo.ru/index.php/ru/schedule/sections
Частичные записи докладов:
- https://www.youtube.com/live/NRw8pDC9il8?si=D69S7fBkcWxu2mnV
- https://www.youtube.com/live/cfpA-U-f5WM?si=m6uNpBm7Mi7uE35D
- https://www.youtube.com/live/fRRR02crpLo?si=ZDrQbicXMOUmtD4R
- https://www.youtube.com/live/1WrObLvqWaI?si=Z9eD5-TR6S5ZqdIO
🌻26-27 октября прошла конференция Математическая психология: современное состояние и перспективы
- https://ipran.ru/event/mathpsy/
Программа: https://ipran.ru/wp-content/uploads/2023/05/mathpsy.pdf
#новости
🌷Курс Neuroscience for machine learners от Imperial College London, доступ ко всем лекциям и материалам открытый.
- https://neuro4ml.github.io
- https://www.youtube.com/playlist?list=PL09WqqDbQWHErc8xOyWdKpNEk78Jjk0EL
🎸22-27 октября прошла Нейроинформатика-2023, одно из самых интересных событий в России.
- https://neuroinfo.ru/
Программа файлом:
https://neuroinfo.ru/archive/2023/program2023.pdf
Программа на сайте (там несколько разделов):
https://neuroinfo.ru/index.php/ru/schedule/sections
Частичные записи докладов:
- https://www.youtube.com/live/NRw8pDC9il8?si=D69S7fBkcWxu2mnV
- https://www.youtube.com/live/cfpA-U-f5WM?si=m6uNpBm7Mi7uE35D
- https://www.youtube.com/live/fRRR02crpLo?si=ZDrQbicXMOUmtD4R
- https://www.youtube.com/live/1WrObLvqWaI?si=Z9eD5-TR6S5ZqdIO
🌻26-27 октября прошла конференция Математическая психология: современное состояние и перспективы
- https://ipran.ru/event/mathpsy/
Программа: https://ipran.ru/wp-content/uploads/2023/05/mathpsy.pdf
#новости
👩🌾 ChatGPT: A Bullshit Tool For Bullshit Jobs
Прекрасное. Приятно читать людей, которые могут себе позволить немного подумать и посозерцать. (10-15 мин чтения).
Прекрасное. Приятно читать людей, которые могут себе позволить немного подумать и посозерцать. (10-15 мин чтения).
🌹Mechanistic Interpretability - NEEL NANDA
На Machine Learning Street Talk прекрасное 4-часовое интервью с прекрасным Нилом Нанда (ex. Anthropic, now DeepMind Research Engineer), специализирующимся в mechanistic interpretability - попытках понять, что происходит внутри моделей, и как они работают. Особенно рекомендовано тем, кто все еще рассматривает глубокие сети как "стохастических попугаев", "задачу оптимизации" или "черные ящики". Всё намного интереснее.
Множество инсайтов и ссылок на статьи:
- про выучивание внутреннего представления доски для игры Отелло (paper)
- про выучивание алгоритма сложения по модулю, динамику обучения, структурные перестройки и гроккинг (paper)
- про суперпозицию представлений и ее динамику, а также ее связь с адверсариальными атаками (paper)
- про структуру перцепция-ризонинг-моторная реализация в слоях трансформеров
- про то что residual connections вообще-то можно наоборот воспринимать как главную шину, через которую слои обмениваются представлениями
- про алгоритмы на головах внимания (paper)
- и многое другое
📍Полный список ссылок на статьи
📍Текстовая транскрипция беседы
📍Сайт Нила, тут есть что почитать
📍Ютуб Нила, тут есть что посмотреть
📍Mechanistic Interpretability Quickstart Guide
На Machine Learning Street Talk прекрасное 4-часовое интервью с прекрасным Нилом Нанда (ex. Anthropic, now DeepMind Research Engineer), специализирующимся в mechanistic interpretability - попытках понять, что происходит внутри моделей, и как они работают. Особенно рекомендовано тем, кто все еще рассматривает глубокие сети как "стохастических попугаев", "задачу оптимизации" или "черные ящики". Всё намного интереснее.
Множество инсайтов и ссылок на статьи:
- про выучивание внутреннего представления доски для игры Отелло (paper)
- про выучивание алгоритма сложения по модулю, динамику обучения, структурные перестройки и гроккинг (paper)
- про суперпозицию представлений и ее динамику, а также ее связь с адверсариальными атаками (paper)
- про структуру перцепция-ризонинг-моторная реализация в слоях трансформеров
- про то что residual connections вообще-то можно наоборот воспринимать как главную шину, через которую слои обмениваются представлениями
- про алгоритмы на головах внимания (paper)
- и многое другое
📍Полный список ссылок на статьи
📍Текстовая транскрипция беседы
📍Сайт Нила, тут есть что почитать
📍Ютуб Нила, тут есть что посмотреть
📍Mechanistic Interpretability Quickstart Guide
Расследование
Одно из наиболее фундаментальных направлений развития LLM - это как научить их не просто имитировать распределения, пусть и с определенной долей выдумки и аналогом ассоциативного мышления, а рассуждать, планировать, искать решения, создавать знание. Первые опыты с AutoGPT показали, что такой лобовой подход плохо декомпозирует задачи. Есть также множество попыток различных техник промптинга, начиная с Chain-of-Thought и Tree-of-Thought и заканчивая такими как STaR и IRSA.
С другой стороны, это направление - целенаправленные стратегии поведения - активно исследовалось в DeepMind с применением техник reinforcement learning. Все их громкие проекты вроде игры в го AlphaGo/AlphaZero/MuZero, сворачивание белков AlphaFold, удержание плазмы в термоядерных реакторах построены именно на них (кстати, Суцкевер участвовал в создании AlphaGo).
Напрашивается идея, можно ли соединить достижения LLM c reinforecement learning? Точнее, как это сделать? Так вот, Google DeepMind уже некоторое время назад анонсировал модель Gemini, которая, судя по всему, должна решать именно эту задачу. А теперь появились новости и про внутренние разработки OpenAI. По слухам в индустрии, они создали алгоритм, который, как один из факторов, мог спровоцировать недавний переворот в компании. Алгоритм упоминается под названием Q*, а модель, на нем построенная, похоже мелькает под кодовым именем QUALIA.
С большой вероятностью, устроено это примерно так. В мае OpenAI выпустила статью Let's Verify Step by Step, в которой научилась оценивать качество не итогового результата генерации, а каждого ее шага. Это уже дало прирост в качестве, но основная ценность не в этом, а в том что у нас теперь есть атомарные действия и их оценки, а это уже полдела для RL. Q* же, это видимо вот этот гибрид Q-learning и классического алгоритма поиска пути A*.
Почему, если это всё правда, это next big thing, и очередной переворот примерно всего, детально разбирается, например, в этих двух видео: видео1, видео2.
UPD: А вот DeepMind взял несколько методов RL, применимых к LLM, сделал бенчмарк, и показал что из этого на каких задачах лучше работает, там же можно найти обзор по теме: LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models
Одно из наиболее фундаментальных направлений развития LLM - это как научить их не просто имитировать распределения, пусть и с определенной долей выдумки и аналогом ассоциативного мышления, а рассуждать, планировать, искать решения, создавать знание. Первые опыты с AutoGPT показали, что такой лобовой подход плохо декомпозирует задачи. Есть также множество попыток различных техник промптинга, начиная с Chain-of-Thought и Tree-of-Thought и заканчивая такими как STaR и IRSA.
С другой стороны, это направление - целенаправленные стратегии поведения - активно исследовалось в DeepMind с применением техник reinforcement learning. Все их громкие проекты вроде игры в го AlphaGo/AlphaZero/MuZero, сворачивание белков AlphaFold, удержание плазмы в термоядерных реакторах построены именно на них (кстати, Суцкевер участвовал в создании AlphaGo).
Напрашивается идея, можно ли соединить достижения LLM c reinforecement learning? Точнее, как это сделать? Так вот, Google DeepMind уже некоторое время назад анонсировал модель Gemini, которая, судя по всему, должна решать именно эту задачу. А теперь появились новости и про внутренние разработки OpenAI. По слухам в индустрии, они создали алгоритм, который, как один из факторов, мог спровоцировать недавний переворот в компании. Алгоритм упоминается под названием Q*, а модель, на нем построенная, похоже мелькает под кодовым именем QUALIA.
С большой вероятностью, устроено это примерно так. В мае OpenAI выпустила статью Let's Verify Step by Step, в которой научилась оценивать качество не итогового результата генерации, а каждого ее шага. Это уже дало прирост в качестве, но основная ценность не в этом, а в том что у нас теперь есть атомарные действия и их оценки, а это уже полдела для RL. Q* же, это видимо вот этот гибрид Q-learning и классического алгоритма поиска пути A*.
Почему, если это всё правда, это next big thing, и очередной переворот примерно всего, детально разбирается, например, в этих двух видео: видео1, видео2.
UPD: А вот DeepMind взял несколько методов RL, применимых к LLM, сделал бенчмарк, и показал что из этого на каких задачах лучше работает, там же можно найти обзор по теме: LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models
👍3⚡2