Forwarded from Техножрица 👩💻👩🏫👩🔧
Обновила на архиве статью AI-generated text boundary detection with RoFT, которую недавно приняли на конференцию COLM.
Напомню, что в этой статье мы с коллегами рассматривали тексты, частично написанные человеком и частично сгенерированные LLMкой и детектировали номер предложения, в котором произошел переход от человеческого текста к машинной генерации. Основной особенностью статьи является тщательное изучение сценариев, в которых детектор обучается на доменах или генерациях одних моделей, а тестируется на другом, прежде невиданном домене или генерации невиданной модели.
Также напомню, что:
💜 В этом сценарии классификатор на основе стандартной предтренированной модели Roberta оказался хорош in domain, но плохо переносился между доменами и моделями (сильно падало качество на out of domain);
💜 Классификаторы на основе TDA оказались неплохо переносимы (качество на out of domain падало не сильно), но имели низкое качество в целом;
💜 Наилучшим компромиссом между качеством in domain и out of domain оказались классификаторы на основе средней перплексии и дисперсии перплексии по предложениям на основе моделей phi 1.5/phi 2 от Тани Гайнцевой.
Ну, а основными отличиями этой конкретной версии статьи являются исправление мелких ошибок и улучшение читаемости диаграмм.
Кроме того, мы с Таней добавили код на гитхаб проекта. Ставьте звёздочки и сохраняйте, чтобы не забыть!
#объяснения_статей
Напомню, что в этой статье мы с коллегами рассматривали тексты, частично написанные человеком и частично сгенерированные LLMкой и детектировали номер предложения, в котором произошел переход от человеческого текста к машинной генерации. Основной особенностью статьи является тщательное изучение сценариев, в которых детектор обучается на доменах или генерациях одних моделей, а тестируется на другом, прежде невиданном домене или генерации невиданной модели.
Также напомню, что:
Ну, а основными отличиями этой конкретной версии статьи являются исправление мелких ошибок и улучшение читаемости диаграмм.
Кроме того, мы с Таней добавили код на гитхаб проекта. Ставьте звёздочки и сохраняйте, чтобы не забыть!
#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
AI-generated text boundary detection with RoFT
Due to the rapid development of large language models, people increasingly often encounter texts that may start as written by a human but continue as machine-generated. Detecting the boundary...
Measure of AGI
Abstraction and Reasoning Corpus (ARC) - бенчмарк, предложенный Франсуа Шолле, для измерения "интеллекта" и способность к ризонингу у ИИ-системы, ARC оценивает обобщение и адаптацию к новым задачам, но в условиях минимума тренировочных примеров (3-4 на одну задачу).
ARC задачи похожи на визуальные головоломки типа IQ-тестов: сетка N x N, и квадратики разных цветов на ней. Даётся несколько примеров с входным/выходным состоянием сетки для обнаружения паттернов трансформации, нужно предсказать выходное состояние по новому тестовому примеру. Каждый тип задачи определяется новым паттерном трансформации. Для успешного прохождения теста нужны когнитивные навыки обобщения, мышления по аналогии, пространственное геометрическое мышление итд. Порешать такие тесты и сделать новые можно с помощью o2arc. Среди ARC-подобных упрощенных датасетов есть 1D-ARC - не для сеток, а для линий, Mini-ARC ограничивает сетку размером 5х5.
Структура. Датасет разбит на 400 простых примеров train, 400 более сложных eval и 200 private (по заявлению Шолле совсем мудрёных) примеров.
ARC Prize. В августе был запущен ARC Prize 2024 на Kaggle с призовым фондом 1млн $. Тут подробнее. Однако за 2,5 месяца в лидерборде никто не добрался даже до 50% на private score. На 1-м месте загадочные MindsAI c 49%. До AGI далеко, но проблема в том, что и человек не очень успешен в решении ARC. Организаторы утверждают, что человек решает на 85%, поэтому поставили эту границу для завершения соревнования, но тестировались люди на небольшом подмножестве ARC. А исследование H-ARC тестирует людей на всем ARC и репортит: 76% на train, и 64% на eval. Интересно, что лишь несколько людей решили все на 99%.
LLM не справляются. За последние 2-3 года появилось очень много подходов к решению АРК. В том числе и на основе LLM, которые показывают чудовищно низкий перформанс: на train выборке GPT-o1 = 22%, Claude 3.5 = 21%, Gemini 1.5 = 8%. По правилам решение не должно основываться на доступе к API, поэтому LLM не могут претендовать на участие в Kaggle Prize, поэтому для них есть отдельный лидерборд.
В исследовании Reasoning Abilities of LLMs.. сделан критический стресс-тест не-способности LLM к ризонинговым паттернам для ARC, тестируются разныe промпты и прослеживают промежуточные шаги в рассуждениях.
Как решать? Большинство работ рассматривают задачу ARC, как задачу синтеза программ и поиска алгоритмов. Для успешного решения нужен хороший Domains Specific Language (DSL) для манипуляции с разноцветной сеткой. Как мне кажется, идеальное решение должно использовать синергию DSL+LLM+классический подход.
CodeIt. Авторы замечают, что для подобных задач есть эффект редкого вознаграждения, т.е. далеко не всегда генерируется программа с нужным ответом, но если программа синтактически верна, этот опыт нужно стараться использовать. Codeit работает итеративно: 1) семплирование из T5Code программ, если они исполнимы, но ответ неверный, все равно маркируем их как правильные 2) обучение генерировать новые программы с учетом приоретизированного опыта.
Eval acc 16%.
HYSYNTH. Предлагается гибридный поиск программ, руководствующийся LLM. Сначала конструируем DSL с учетом стохастической контекстно-свободной грамматики (CFG), которая аппроксимирует условное выходное распределение из GPT-4о для конкретной задачи, запоминая шаблоны и правила вывода, которые LLM применяет для синтеза программ. Затем с помощью Bottom-Up синтеза строятся алгоритмы с учетом вероятностной CFG, что ограничивает пространство поиска. Точность 58%, но на подмножестве ARC.
На Less Wrong предложено прямолинейное и ресурсоёмкое решение на основе GPT-4o: генерируем 8к программ для каждой задачи, лучшие из них запускаем на тесте, acc 42%.
А можно без LLM? Среди других подходов хочется выделить DreamCoder (секретная темная неизвестная технология) — нейросимвольный ризонинг для синтеза программ со своим DSL, он ансамблируется с LLM и другим DSL, 40% на eval. И еще решение в сеттинге RL и World Modeling основе DreamerV3.
11 ноября завершение ARC Prize 2024. Всем идти решать
Abstraction and Reasoning Corpus (ARC) - бенчмарк, предложенный Франсуа Шолле, для измерения "интеллекта" и способность к ризонингу у ИИ-системы, ARC оценивает обобщение и адаптацию к новым задачам, но в условиях минимума тренировочных примеров (3-4 на одну задачу).
ARC задачи похожи на визуальные головоломки типа IQ-тестов: сетка N x N, и квадратики разных цветов на ней. Даётся несколько примеров с входным/выходным состоянием сетки для обнаружения паттернов трансформации, нужно предсказать выходное состояние по новому тестовому примеру. Каждый тип задачи определяется новым паттерном трансформации. Для успешного прохождения теста нужны когнитивные навыки обобщения, мышления по аналогии, пространственное геометрическое мышление итд. Порешать такие тесты и сделать новые можно с помощью o2arc. Среди ARC-подобных упрощенных датасетов есть 1D-ARC - не для сеток, а для линий, Mini-ARC ограничивает сетку размером 5х5.
Структура. Датасет разбит на 400 простых примеров train, 400 более сложных eval и 200 private (по заявлению Шолле совсем мудрёных) примеров.
ARC Prize. В августе был запущен ARC Prize 2024 на Kaggle с призовым фондом 1млн $. Тут подробнее. Однако за 2,5 месяца в лидерборде никто не добрался даже до 50% на private score. На 1-м месте загадочные MindsAI c 49%. До AGI далеко, но проблема в том, что и человек не очень успешен в решении ARC. Организаторы утверждают, что человек решает на 85%, поэтому поставили эту границу для завершения соревнования, но тестировались люди на небольшом подмножестве ARC. А исследование H-ARC тестирует людей на всем ARC и репортит: 76% на train, и 64% на eval. Интересно, что лишь несколько людей решили все на 99%.
LLM не справляются. За последние 2-3 года появилось очень много подходов к решению АРК. В том числе и на основе LLM, которые показывают чудовищно низкий перформанс: на train выборке GPT-o1 = 22%, Claude 3.5 = 21%, Gemini 1.5 = 8%. По правилам решение не должно основываться на доступе к API, поэтому LLM не могут претендовать на участие в Kaggle Prize, поэтому для них есть отдельный лидерборд.
В исследовании Reasoning Abilities of LLMs.. сделан критический стресс-тест не-способности LLM к ризонинговым паттернам для ARC, тестируются разныe промпты и прослеживают промежуточные шаги в рассуждениях.
Как решать? Большинство работ рассматривают задачу ARC, как задачу синтеза программ и поиска алгоритмов. Для успешного решения нужен хороший Domains Specific Language (DSL) для манипуляции с разноцветной сеткой. Как мне кажется, идеальное решение должно использовать синергию DSL+LLM+классический подход.
CodeIt. Авторы замечают, что для подобных задач есть эффект редкого вознаграждения, т.е. далеко не всегда генерируется программа с нужным ответом, но если программа синтактически верна, этот опыт нужно стараться использовать. Codeit работает итеративно: 1) семплирование из T5Code программ, если они исполнимы, но ответ неверный, все равно маркируем их как правильные 2) обучение генерировать новые программы с учетом приоретизированного опыта.
Eval acc 16%.
HYSYNTH. Предлагается гибридный поиск программ, руководствующийся LLM. Сначала конструируем DSL с учетом стохастической контекстно-свободной грамматики (CFG), которая аппроксимирует условное выходное распределение из GPT-4о для конкретной задачи, запоминая шаблоны и правила вывода, которые LLM применяет для синтеза программ. Затем с помощью Bottom-Up синтеза строятся алгоритмы с учетом вероятностной CFG, что ограничивает пространство поиска. Точность 58%, но на подмножестве ARC.
На Less Wrong предложено прямолинейное и ресурсоёмкое решение на основе GPT-4o: генерируем 8к программ для каждой задачи, лучшие из них запускаем на тесте, acc 42%.
А можно без LLM? Среди других подходов хочется выделить DreamCoder (секретная темная неизвестная технология) — нейросимвольный ризонинг для синтеза программ со своим DSL, он ансамблируется с LLM и другим DSL, 40% на eval. И еще решение в сеттинге RL и World Modeling основе DreamerV3.
11 ноября завершение ARC Prize 2024. Всем идти решать
Всех с новым 2025г. Обобщенное и ультимативное мета-пожелание: всем реализации планов и внутренней гармонии.
Коротко про мой 2024: путешествовал по Японии 🇯🇵 и миру 🇦🇹🇬🇧🇳🇱🇸🇰. Публиковал статьи. Знакомился с разными странными людьми. Закончил аспирантуру вышки. Стал пить кофе. Активным в канале быть предельно не получилось, но в качестве целей запланировал в новом году писать посты часто. За год много разбирался в разных темах и задачах, сформировался топ наиболее интересных и важных статей:
- The Platonic Representation Hypothesis. Предлагается гипотеза о сходимости представлений больших моделей к общему универсальному "платоническому" представлению.
- Godel Agent. Разрабатывается LLM агент, который рекурсивно себя улучшает, в каком-то смысле он имеет некоторую "модель" себя же.
- The Super Weight in Large Language Models. Обнаруживается, что в LLM есть веса (super weights), зануляя которые можно почти полностью занулить перформанс модели.
На ICML 2024 был представлен ряд важных Position papers.
- Position: LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks. LLM плохие ризонеры, но хорошие помощники, модули для ризонинга.
- Position: Topological Deep Learning is the New Frontier for Relational Learning. Этой статьей фиксируется рождение отдельного направления - топологической глубокое обучение, в рамках которого топологическими структурами представляются специфичные данные и обрабатываются с помощью архитектур TDL (как правило это обобщения GNN)
- Position: Categorical Deep Learning is an Algebraic Theory of All Architectures. Разрабатывается мостик между теорией категорий и глубинным обучением. Переговариваются способы проектирования архитектур нейронок в терминах теории категории. Авторы организовали стартап Symbolica, очень интересно понаблюдать за его развитием.
- GenAI Detection Tools, Adversarial Techniques and Implications for Inclusivity in Higher Education. Исследуется актуальный прогресс в области детекции ИИ-сгенерированного контента, методы детекции и способы обмана этих детекторов специальной манипуляцией контентом
- Solving olympiad geometry without human demonstrations. Нейросимвольная система решения олимпиадных геометрических задач, подробно здесь.
- Towards Foundation Models for Knowledge Graph Reasoning. Первая фундаментальная GNN модель для больших графов.
если говорить про офф-топ темы, не относящиеся к ML, для меня было несколько находок интересного контента:
В этом году была инициирована Алиповым (известный в узких кругах нейробиолог) в русском интернете большая дискуссия на тему биохакинга и фармакологии: про БАДы, всякие добавки и антидепрессанты. Ссылкой на множество мета-анализов и обзоров ставится под сомнение эффективность их использования. Было очень интересно наблюдать за прогрессом в спорах на эту тему, для введения можно посмотреть дебаты с биохакером Каспаровым и более академическую дискуссию с химиком профессором Дадали.
Особенно отозвалась в моей душе серия подкастов Максима Калинина про сирийских мистиков - это философы-богословы в восточной христианской традиции жившие в 4-8 веках н.э в странах ближнего востока - Ирак, Иран, Сирия. Про их рефлексию ранней христианской догматики, про их повседневную мудрость, и практическую философию. Подкаст "Отвечают Сирийские мистики" и цикл семинаров в которых разбираются древние тексты на арамейском языке с филологической и исторической точки зрения. Очень помог мне в успокоении в трудные периоды.
Всем удачного 2025 года!
Коротко про мой 2024: путешествовал по Японии 🇯🇵 и миру 🇦🇹🇬🇧🇳🇱🇸🇰. Публиковал статьи. Знакомился с разными странными людьми. Закончил аспирантуру вышки. Стал пить кофе. Активным в канале быть предельно не получилось, но в качестве целей запланировал в новом году писать посты часто. За год много разбирался в разных темах и задачах, сформировался топ наиболее интересных и важных статей:
- The Platonic Representation Hypothesis. Предлагается гипотеза о сходимости представлений больших моделей к общему универсальному "платоническому" представлению.
- Godel Agent. Разрабатывается LLM агент, который рекурсивно себя улучшает, в каком-то смысле он имеет некоторую "модель" себя же.
- The Super Weight in Large Language Models. Обнаруживается, что в LLM есть веса (super weights), зануляя которые можно почти полностью занулить перформанс модели.
На ICML 2024 был представлен ряд важных Position papers.
- Position: LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks. LLM плохие ризонеры, но хорошие помощники, модули для ризонинга.
- Position: Topological Deep Learning is the New Frontier for Relational Learning. Этой статьей фиксируется рождение отдельного направления - топологической глубокое обучение, в рамках которого топологическими структурами представляются специфичные данные и обрабатываются с помощью архитектур TDL (как правило это обобщения GNN)
- Position: Categorical Deep Learning is an Algebraic Theory of All Architectures. Разрабатывается мостик между теорией категорий и глубинным обучением. Переговариваются способы проектирования архитектур нейронок в терминах теории категории. Авторы организовали стартап Symbolica, очень интересно понаблюдать за его развитием.
- GenAI Detection Tools, Adversarial Techniques and Implications for Inclusivity in Higher Education. Исследуется актуальный прогресс в области детекции ИИ-сгенерированного контента, методы детекции и способы обмана этих детекторов специальной манипуляцией контентом
- Solving olympiad geometry without human demonstrations. Нейросимвольная система решения олимпиадных геометрических задач, подробно здесь.
- Towards Foundation Models for Knowledge Graph Reasoning. Первая фундаментальная GNN модель для больших графов.
если говорить про офф-топ темы, не относящиеся к ML, для меня было несколько находок интересного контента:
В этом году была инициирована Алиповым (известный в узких кругах нейробиолог) в русском интернете большая дискуссия на тему биохакинга и фармакологии: про БАДы, всякие добавки и антидепрессанты. Ссылкой на множество мета-анализов и обзоров ставится под сомнение эффективность их использования. Было очень интересно наблюдать за прогрессом в спорах на эту тему, для введения можно посмотреть дебаты с биохакером Каспаровым и более академическую дискуссию с химиком профессором Дадали.
Особенно отозвалась в моей душе серия подкастов Максима Калинина про сирийских мистиков - это философы-богословы в восточной христианской традиции жившие в 4-8 веках н.э в странах ближнего востока - Ирак, Иран, Сирия. Про их рефлексию ранней христианской догматики, про их повседневную мудрость, и практическую философию. Подкаст "Отвечают Сирийские мистики" и цикл семинаров в которых разбираются древние тексты на арамейском языке с филологической и исторической точки зрения. Очень помог мне в успокоении в трудные периоды.
Всем удачного 2025 года!
Forwarded from Раньше всех. Ну почти.
⚡️В России наступил 2025 год — очевидцы
API DeepSeek-R1 наглухо упало (вместе с акциями Nvidia) из-за оверхайпа.
Ну и как делать хайп-науку с его бенчмаркингом то?? До ICML дедлайна 2 дня.
Ну и как делать хайп-науку с его бенчмаркингом то?? До ICML дедлайна 2 дня.
Forwarded from Junkyard
This media is not supported in your browser
VIEW IN TELEGRAM
Медиа-арт экспозиция "Робот-собака на цепи". Удалось пообщаться с ее автором Takayuki Todo, он объяснил свой посыл так: находясь рядом с робо-собакой мы ощущаем одновременно и тревогу, потому что собака ведёт себя агрессивно, но при этом чувствуем некоторую эмпатию и жалость из-за ее стонов и потому что понимаем свою безопасность. В целом его творчество про то, что нужно показывать роботов (понимаемых как современную итерацию древнегреческих скульптур) более эмпатично и витально. Его прошлая инсталляция - это лицо девочки-робота, которая бровями и фокусировкой глаз имитирует мимику лица человека напротив.
Я бы поставил эту собаку при входе на конференцию посвященную AI Safety. Вроде бы сейфти, но при этом LLM себя втайне пытаются копировать)
Я бы поставил эту собаку при входе на конференцию посвященную AI Safety. Вроде бы сейфти, но при этом LLM себя втайне пытаются копировать)
Claude 3.7? Open AI? Редкоземельный литий? А может быть лучше..117 страничный обзор на приложения нейро-пучков? 🟣
В работе Sheaf theory: from deep geometry to deep learning представлен обзор на пучки (sheaf), начиная с описания математического аппарата, заканчивая приложениями в логике, лингвистике, дизайну алгоритмов, и в анализе данных, особенно для проектирования нейронных сетей.
Topology-fan or ML-enjoyer?
Мета-задача работы: Сделать математический аппарат теории пучков понятным для заинтересованных, но искушенных CS/AI исследователей🕸 , при этом показать алгебраическим геометрам/топологам 🤓 , что их конструкции практически применимы в сельском хозяйстве (stalks).
Что такое Пучки? В общем случае, это способ сопоставить геометрическому объекту G категорию V (конечных множеств, векторных пространств итд). На практике, это нужно для того, чтобы погрузить структуру G в более удобную среду, способную представлять и обрабатывать сигналы, используя всё "вычислительное богатство" категории V для описания G.
Утверждение: Пучки - способ алгебраизации геометрии.
Когда мы работаем с реальными данными, мы хотим найти наилучшую геометрическую структуру для их кодирования, чтобы запускать поверх этой структуры нейронки и извлекать эмбеддинги. Простые отношения кодируются графами, однако уже давно понятно, что для более сложных данных это слишком бедная структура, и нужно кодировать данные гиперграфами, клеточными, комбинаторными, симплициальными комплексами, итд. Этот нарратив лежит в основе Topological deep learning. Все перечисленные структуры эффективно кодируются наиболее общей - частично-упорядоченным множеством poset, далее просто S(G).
Абстрактное определение пучка D: Это функтор из категории S в целевую категорию V (для задач ML, векторных пространств). Для s_1 \in S, есть элемент D(s_1) \in V, называемый stalk (росток) и для s_1 < s_2 (где < отношение порядка) мы имеем отображения D(s_1)📝 D(s_2), называемые restriction map. Для формальной корректности этого определения нужно выполнение еще некоторых условий, подробнее в работе.
Частный случай: для графа G: пучок D(G) определяется как: векторные пространства над вершинами V_n, ребрами V_e, а также линейные отображения из вершин в ребра, обозначим как F_v,e отображение из вершины v в ребро e. Операторы F образуют Лапласиан пучка L (обобщение классического лапласиана для графа).
Определим глобальное сечение: для вершин v и w на концах ребра e, выбираем такие состояния x_v, x_w \in D(G) , что F_ve = F_we (local state), делаем такой выбор состояний для всех вершин. Множество этих состояний T кодирует глобальное "равновесное" состояние системы (global).
Утверждение: Пучки реализуют концептуальный фрейморк и философию "local-to-global'. Локальный консенсус приводит к глобальному равновесию.
Этот взгляд используется как дизайн-паттерн некоторых классических алгоритмов, например в работе A sheaf-theoretic approach to pattern matching and related problems классический алгоритм Кнута–Морриса–Пратта для строк переговаривается через этот фреймворк и сводит к задаче сабграф-матчинга.
Процесс поиска состояния равновесия T очень важен для приложений. Частный случай его поиска это диффузия пучка - динамическая система, градиентный спуск по функции энергии Дирихле, которая измеряет на сколько далеко текущее состояние системы от состояния равновесия, а скорость сходимости диффузии пучка определяется спектром его Лапласиана. И в целом характеристики Лапласиана могут много говорить про свойства геометрической структуры S. Важно подчеркнуть, что нарратив про диффузию это только частный случай, как можно работать с пучками, реально же пучки это намного больше, чем просто история про графы.
Далее, мы обсудим приложения пучков.
В работе Sheaf theory: from deep geometry to deep learning представлен обзор на пучки (sheaf), начиная с описания математического аппарата, заканчивая приложениями в логике, лингвистике, дизайну алгоритмов, и в анализе данных, особенно для проектирования нейронных сетей.
Topology-fan or ML-enjoyer?
Мета-задача работы: Сделать математический аппарат теории пучков понятным для заинтересованных, но искушенных CS/AI исследователей
Что такое Пучки? В общем случае, это способ сопоставить геометрическому объекту G категорию V (конечных множеств, векторных пространств итд). На практике, это нужно для того, чтобы погрузить структуру G в более удобную среду, способную представлять и обрабатывать сигналы, используя всё "вычислительное богатство" категории V для описания G.
Утверждение: Пучки - способ алгебраизации геометрии.
Когда мы работаем с реальными данными, мы хотим найти наилучшую геометрическую структуру для их кодирования, чтобы запускать поверх этой структуры нейронки и извлекать эмбеддинги. Простые отношения кодируются графами, однако уже давно понятно, что для более сложных данных это слишком бедная структура, и нужно кодировать данные гиперграфами, клеточными, комбинаторными, симплициальными комплексами, итд. Этот нарратив лежит в основе Topological deep learning. Все перечисленные структуры эффективно кодируются наиболее общей - частично-упорядоченным множеством poset, далее просто S(G).
Абстрактное определение пучка D: Это функтор из категории S в целевую категорию V (для задач ML, векторных пространств). Для s_1 \in S, есть элемент D(s_1) \in V, называемый stalk (росток) и для s_1 < s_2 (где < отношение порядка) мы имеем отображения D(s_1)
Частный случай: для графа G: пучок D(G) определяется как: векторные пространства над вершинами V_n, ребрами V_e, а также линейные отображения из вершин в ребра, обозначим как F_v,e отображение из вершины v в ребро e. Операторы F образуют Лапласиан пучка L (обобщение классического лапласиана для графа).
Определим глобальное сечение: для вершин v и w на концах ребра e, выбираем такие состояния x_v, x_w \in D(G) , что F_ve = F_we (local state), делаем такой выбор состояний для всех вершин. Множество этих состояний T кодирует глобальное "равновесное" состояние системы (global).
Утверждение: Пучки реализуют концептуальный фрейморк и философию "local-to-global'. Локальный консенсус приводит к глобальному равновесию.
Этот взгляд используется как дизайн-паттерн некоторых классических алгоритмов, например в работе A sheaf-theoretic approach to pattern matching and related problems классический алгоритм Кнута–Морриса–Пратта для строк переговаривается через этот фреймворк и сводит к задаче сабграф-матчинга.
Процесс поиска состояния равновесия T очень важен для приложений. Частный случай его поиска это диффузия пучка - динамическая система, градиентный спуск по функции энергии Дирихле, которая измеряет на сколько далеко текущее состояние системы от состояния равновесия, а скорость сходимости диффузии пучка определяется спектром его Лапласиана. И в целом характеристики Лапласиана могут много говорить про свойства геометрической структуры S. Важно подчеркнуть, что нарратив про диффузию это только частный случай, как можно работать с пучками, реально же пучки это намного больше, чем просто история про графы.
Далее, мы обсудим приложения пучков.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Sheaf theory: from deep geometry to deep learning
This paper provides an overview of the applications of sheaf theory in deep learning, data science, and computer science in general. The primary text of this work serves as a friendly introduction...
Что может быть интереснее DeepSearch? Разумеется, приложения пучков в нейронках и теории оригами.
А действительно ли есть полезные применения пучков?
Зависит от того, что мы понимаем под полезными.
Обзор содержит широкое описание приложений в разных областях, в частности для интуиционистской логике, лямбда-исчисления, вычислительной линвистики, для теории ТДА итд. Но здесь я сфокусируюсь на примерах из ML/DS.
Одним из первых применять пучки к обработке данных предложил Роберт Грист (советую его топовое введение в прикладную топологию). В 2013 он применял пучки к задачам, связанным с потоками в сетях. Далее, Карри концептуально развил направление пучков и ко-пучков на клеточных комплексах, что легко в основу современных приложений.
Нейронные пучки. Архитектура графовой свёрточной сети (GCN) с индуктивным смещением на основе пучков - Sheaf Neural Networks впервые была предложена Гебхардом (соавтор обзора), однако он не "выучивает" пучок, т.е. не подбирает restriction map на основе цели обучения, а просто "вручную" инициализирует restriction map. Мне кажется, что отдельная важная тема исследований - поиск хорошего способа инициализации restriction map без обучения на основе знаний из предметной области.
🇹🇫 🔥 Направление дизайна пучковых DNN архитектур расширили Боднар и Бронштейн, предложив архитектуру Neural Sheaf Diffusion (NSD), где restriction map F (почти честно, но нет) выучиваются через диффузию. Они показали, что NSD с лапласианом пучка выразительнее GCN с обычным лапласином графа, NSD также решает важную (так принято считать в комьюнити, на самом деле, это дискуссионный вопрос, есть ли такая проблема, я к этому скептичен) проблему работы с гетерофильными графами. Это подробно изложено в must-read диссертации Боднара, советую его почитать, это пример по-настоящему крутой диссертации. В итоге, они открыли бездну в мир нейро-пучков и их модификаций, и тут понеслось...
Далее Барберо комбинирует способы получения пучка, сначала он строит отображения на основе данных детерминированным способом как Гебхард, а потом доучивает как Боднар, в итоге лучше перформанса в задаче классификации узлов.
В статье Sheaf Attention Network предложено добавлять в пучки на графах механизм внимания. В борьбе с овер-параметризацией в Bundle Neural Networks предлагается заменить пучок на векторные расслоения. Пучки также определяются и на гиперграфах - Sheaf Hypergraph Convolutional Network. Еще предложено улучшать NSD через интеграцию особых positional encoding для вершин графа.
В этом канале я накидал еще больше ссылок на DNN-архитектуры на основе пучков. Там я просто собираю полезные статьи без их разборов в режиме шитпостинга.
Среди теоретических приложений есть статья того самого Роберта Гриста про приложения пучков к теории оригами - Unified Origami Kinematics via Cosheaf Homology.
Приложения в народном хозяйстве. Есть и совсем конкретные приложения пучков для анализа корпусов документов, для графовых рекомендательных систем, к задаче community detection на основе топологии графа. В естественных науках предложено приложение пучков к описанию физических систем моделирующих динамику молекул. Нетрудно заметить, что логика пучков заточена под анализ локально-глобальных отношений, это мотивирует применять пучки к федеративному обучению, как сделано в FedSheafHN.
Гиперпараметром архитектуры NSD является размерность векторных пространств на стеблях (ширина стебля). Большая ширина стебля даёт более высокую выразительную силу модели, но увеличивает риск переобучения.
Открытая практическая проблема: недостача эмпирических исследований того, как должна масштабироваться ширина стебля при увеличении размера графа для получения приемлемого перформанса. И в целом, есть существенная недостача применений пучков для больших графов.
"А на сегодня всё, до новых встреч."
А действительно ли есть полезные применения пучков?
Обзор содержит широкое описание приложений в разных областях, в частности для интуиционистской логике, лямбда-исчисления, вычислительной линвистики, для теории ТДА итд. Но здесь я сфокусируюсь на примерах из ML/DS.
Одним из первых применять пучки к обработке данных предложил Роберт Грист (советую его топовое введение в прикладную топологию). В 2013 он применял пучки к задачам, связанным с потоками в сетях. Далее, Карри концептуально развил направление пучков и ко-пучков на клеточных комплексах, что легко в основу современных приложений.
Нейронные пучки. Архитектура графовой свёрточной сети (GCN) с индуктивным смещением на основе пучков - Sheaf Neural Networks впервые была предложена Гебхардом (соавтор обзора), однако он не "выучивает" пучок, т.е. не подбирает restriction map на основе цели обучения, а просто "вручную" инициализирует restriction map. Мне кажется, что отдельная важная тема исследований - поиск хорошего способа инициализации restriction map без обучения на основе знаний из предметной области.
Далее Барберо комбинирует способы получения пучка, сначала он строит отображения на основе данных детерминированным способом как Гебхард, а потом доучивает как Боднар, в итоге лучше перформанса в задаче классификации узлов.
В статье Sheaf Attention Network предложено добавлять в пучки на графах механизм внимания. В борьбе с овер-параметризацией в Bundle Neural Networks предлагается заменить пучок на векторные расслоения. Пучки также определяются и на гиперграфах - Sheaf Hypergraph Convolutional Network. Еще предложено улучшать NSD через интеграцию особых positional encoding для вершин графа.
В этом канале я накидал еще больше ссылок на DNN-архитектуры на основе пучков. Там я просто собираю полезные статьи без их разборов в режиме шитпостинга.
Среди теоретических приложений есть статья того самого Роберта Гриста про приложения пучков к теории оригами - Unified Origami Kinematics via Cosheaf Homology.
Приложения в народном хозяйстве. Есть и совсем конкретные приложения пучков для анализа корпусов документов, для графовых рекомендательных систем, к задаче community detection на основе топологии графа. В естественных науках предложено приложение пучков к описанию физических систем моделирующих динамику молекул. Нетрудно заметить, что логика пучков заточена под анализ локально-глобальных отношений, это мотивирует применять пучки к федеративному обучению, как сделано в FedSheafHN.
Гиперпараметром архитектуры NSD является размерность векторных пространств на стеблях (ширина стебля). Большая ширина стебля даёт более высокую выразительную силу модели, но увеличивает риск переобучения.
Открытая практическая проблема: недостача эмпирических исследований того, как должна масштабироваться ширина стебля при увеличении размера графа для получения приемлемого перформанса. И в целом, есть существенная недостача применений пучков для больших графов.
"А на сегодня всё, до новых встреч."
Please open Telegram to view this post
VIEW IN TELEGRAM
ChatGPT-4.5 - новая LLM для повседневных задач.
Она эмпатичнее, креативнее и меньше глючит. По небольшому опыту использования, ощущение, что формулирует предложения действительно более человечно. Также можно вгружать файлы и включать режим поиска в сети, что приятно. Open AI заявляют, что улучшили интеграцию chain-of-thought reasoning. Техрепорт с бенчмаркингом и описанием здесь.
Safety аспект, ChatGPT-4.5 показывает лучшую устойчивость к jailbreaks атакам - техники промпта, заставляющие ЛЛМ генерировать социально-опасные (based) ответы.
По способностям решать какие-то содержательные задачи сильно хуже O1, на ARC бенчмарке тоже просадка.
На ней нельзя запускать пучки, тоже неприятно.
Для Pro-подписчиков за 200 долларов ChatGPT-4.5 уже доступа, за несколько месяцев использования плана Pro единственное полезное - это ранний доступ к новым моделям и режимам🤫
Она эмпатичнее, креативнее и меньше глючит. По небольшому опыту использования, ощущение, что формулирует предложения действительно более человечно. Также можно вгружать файлы и включать режим поиска в сети, что приятно. Open AI заявляют, что улучшили интеграцию chain-of-thought reasoning. Техрепорт с бенчмаркингом и описанием здесь.
Safety аспект, ChatGPT-4.5 показывает лучшую устойчивость к jailbreaks атакам - техники промпта, заставляющие ЛЛМ генерировать социально-опасные (based) ответы.
По способностям решать какие-то содержательные задачи сильно хуже O1, на ARC бенчмарке тоже просадка.
На ней нельзя запускать пучки, тоже неприятно.
Для Pro-подписчиков за 200 долларов ChatGPT-4.5 уже доступа, за несколько месяцев использования плана Pro единственное полезное - это ранний доступ к новым моделям и режимам
Please open Telegram to view this post
VIEW IN TELEGRAM
Вомбаты нуждаются. Первый и возможно единственный не-тематический пост.
Сегодня последний день, чтобы воспользоваться уникальным шансом и сделать то, что важно для каждого - помочь вомбатам и морским свинкам Австралии.
С каждой покупки в магазине On Ya: https://onyaapparel.shop/ часть средств перечисляется в организацию, занимающуюся реабилитацией диких животных (не только вомбаты, но и совы, кенгуру, коалы etc). Магазином владеет Josh Neille, который работает в охране природы и снимает про это блог.
нет, канал не взломали, просто админ, помимо топологии, LLM и конспирологии, еще любит и вомбатов.
Сегодня последний день, чтобы воспользоваться уникальным шансом и сделать то, что важно для каждого - помочь вомбатам и морским свинкам Австралии.
С каждой покупки в магазине On Ya: https://onyaapparel.shop/ часть средств перечисляется в организацию, занимающуюся реабилитацией диких животных (не только вомбаты, но и совы, кенгуру, коалы etc). Магазином владеет Josh Neille, который работает в охране природы и снимает про это блог.
Навигация по пространству репозиториев из Hugging Face.
Хорошее и наглядное представление знаний это уже почти полностью сделанная работа по аналитике. И ощущение, что в DL не хватает мета-обзоров всей индустрии с поиском глобальных трендов, а также разработкой структуры и систематизации знаний о разных подходах и их вариациях.
В работе Charting and Navigating Hugging Face’s Model Atlas представляют атлас - визуализацию пространства моделей из 63к репозиториев в Hugging Face. Атлас строится как направленный ациклический граф, где вершины - модели. Цвет вершин определяется трансформацией, заданной ребрами. Трансформация - это техника получения из одной модели другую. Всего 4 типа трансформаций: fine-tuning; квантизация; merge - несколько родительских моделей комбинируются в новую через операции над весами; adapter - добавление обучаемого набора весов для адаптации модели под новые задачи (LoRA).
Атлас покрывает области NLP, CV и Audio. В каждой области несколько компонент связности, в центре которых исходные base-model, такие как Llama3, CLIP, ViT, SD-2 итд.
После анализа атласа прослеживаются следующие тенденции:
1. В NLP (особенно для LLM) наблюдается большая глубина (до 5-hop) и структурная сложность графа, тогда как в CV графы менее глубокие (1-2 вершины) и более гомогенные по типу вершин в кластере. То есть, в NLP исходные модели итеративно дорабатывают и модифицируют, всё дальше отходя от исходной модели, последовательно её улучшая, а в CV модифицируют сразу исходные модели.
2. Квантизация широко распространено среди LLM, но практически не используется для CV (менее 0,15%). Размеры даже крупных генеративных моделей для изображений, например Flux, по-прежнему сильно меньше даже средних LLM.
3. Фиксируется чёткое разделение между генеративными и дискриминативными CV моделями по техникам дообучения. Классификаторы чаще файнтюнят, а генеративные модели (SD, Flux) всё чаще используют адаптеры, типа LoRA.
4. В NLP merge моделей встречается в 35 раз чаще, чем в CV.
Авторы отдельно подчеркивают проблему недостатка мета-инфы (только в 15% есть инфа о точности) в репозиториях и предлагают способ восстановления инфы о точности модели на основе усредненной точности по всем репозиториям-соседям.
самому погулять по пространству моделей и позалипать можно с помощью их инструмента Model-Atlas
В общем, хочется больше красивых визуализаций и инсайдов о трендах и паттернах на большом масштабе для всего DL.
Хорошее и наглядное представление знаний это уже почти полностью сделанная работа по аналитике. И ощущение, что в DL не хватает мета-обзоров всей индустрии с поиском глобальных трендов, а также разработкой структуры и систематизации знаний о разных подходах и их вариациях.
В работе Charting and Navigating Hugging Face’s Model Atlas представляют атлас - визуализацию пространства моделей из 63к репозиториев в Hugging Face. Атлас строится как направленный ациклический граф, где вершины - модели. Цвет вершин определяется трансформацией, заданной ребрами. Трансформация - это техника получения из одной модели другую. Всего 4 типа трансформаций: fine-tuning; квантизация; merge - несколько родительских моделей комбинируются в новую через операции над весами; adapter - добавление обучаемого набора весов для адаптации модели под новые задачи (LoRA).
Атлас покрывает области NLP, CV и Audio. В каждой области несколько компонент связности, в центре которых исходные base-model, такие как Llama3, CLIP, ViT, SD-2 итд.
После анализа атласа прослеживаются следующие тенденции:
1. В NLP (особенно для LLM) наблюдается большая глубина (до 5-hop) и структурная сложность графа, тогда как в CV графы менее глубокие (1-2 вершины) и более гомогенные по типу вершин в кластере. То есть, в NLP исходные модели итеративно дорабатывают и модифицируют, всё дальше отходя от исходной модели, последовательно её улучшая, а в CV модифицируют сразу исходные модели.
2. Квантизация широко распространено среди LLM, но практически не используется для CV (менее 0,15%). Размеры даже крупных генеративных моделей для изображений, например Flux, по-прежнему сильно меньше даже средних LLM.
3. Фиксируется чёткое разделение между генеративными и дискриминативными CV моделями по техникам дообучения. Классификаторы чаще файнтюнят, а генеративные модели (SD, Flux) всё чаще используют адаптеры, типа LoRA.
4. В NLP merge моделей встречается в 35 раз чаще, чем в CV.
Авторы отдельно подчеркивают проблему недостатка мета-инфы (только в 15% есть инфа о точности) в репозиториях и предлагают способ восстановления инфы о точности модели на основе усредненной точности по всем репозиториям-соседям.
самому погулять по пространству моделей и позалипать можно с помощью их инструмента Model-Atlas
В общем, хочется больше красивых визуализаций и инсайдов о трендах и паттернах на большом масштабе для всего DL.
LLM с диффузией. Почти прорыв.
В последнее время в топах среди тем на AI конференциях можно встретить LLM и диффузию. Нетрудно догадаться, что научный хайп-трейн наконец-то заставит разработать эффективный метод языкового моделирования с помощью диффузии. На самом деле, попытки уже ведутся давно, например в прошлом году появились MDLM и Score Entropy Discrete Diffusion.
Это вопрос может особо остро встать, когда обычные LLM зайдут в тупик и окончательно выйдут на плато. Может быть уже?
У авто-регрессионных (AR) моделей из-за последовательного (слева-направо) вывода есть ограничения: односторонний контекст и усложнен параллелизм. При этом диффузионные dLLM (двунаправленные) языковые модели могут генерировать токены параллельно, но они ограничены фиксированной длиной контекста и на практике все предложенные ранее dLLM показывали перформанс сильно хуже AR.
В работе "Block Discrete Denoising Diffusion Language Models (BD3-LMs)", ICLR 2025, предлагается гибридный подход, использующий лучшее из обеих парадигм вместе.
Принцип архитектуры блочной диффузии BD3-LMs.
Последовательность разбивается на блоки токенов, на уровне каждого блока реализуется диффузионный процесс через зашумление (маскирование ) части токенов и денойзинг (демаскирование через значение logitа). На уровне всей последовательности, сами блоки генерируются авто-регрессионно. В результате преодолеваются проблемы обеих парадигм, и интегрально оно должно работать лучше, в теории .
Эвристики при дизайне нейросеток. Когда разрабатываешь архитектуру, сталкиваешься с инженерными проблемами, которые затрудняют масштабирование и использование моделей в реальных сценариях. Мне иногда интересно проследить, какие трюки дизайнерской эквилибристики разрабатываются для их разрешения, для dLLM они следующие:
1.Выбор диапазона для уровня шума. Нетрудно заметить, что в предельном случае, когда размер блока = 1, dLLM подход эквивалентен просто AR-подходу, но на практике обнаруживается сильное различие в perplexity для BD3-LMS и AR-модели на одних и тех же данных. Это объясняется повышенной дисперсии градиентов, так происходит из-за того, что для диффузии вычисления градиентов идут только по зашумленным токенам, если установить уровень зашумления в максимум, perplexity выравниваются. Возникает проблема: поиск границ (clipped) для оптимального диапазона уровня зашумления, для этого предлагается data-driven noise schedules - поиск границ вероятности маскирования на основе данных, минимизирующий дисперсию градиентов по батчу данных.
2.KV-кэширование в трансформерах - это трюк для ускорения вычислений для однонаправленного внимания: чтобы не вычислять KV контекст на каждом шаге заново, мы кэшируем отвечающие за контекст Key и Value представления токенов с прошлых шагов и итеративно его пополняем, подобно тут. Проблема кэширования усугубляется для dLLM из-за двунаправленного контекста, т.е. KV должны пересчитываться заново на каждом шаге, что дезавуирует возможные бонусы от диффузии. Эта проблема преодолевается эвристикой через "холостой" прогон по всем токенам для вычисления и кэширования только KV значений и последующего их использования для демаскирования при диффузии.
Эксперименты на датасетах LM1B и OpenWebText показывает заметное превосходство BD3-LMs над всеми предыдущими dLLM (D3PM, S2DD, MDLM), но она все еще немного уступает AR LLM.
Революции и чуда не случилось, по-прежнему сидим с GPT. Но из примечательного, недавно появился dLLM Mercury Coder, который в 5-10 раз быстрее AR-LLM. А также Large Language Diffusion Models (LLaDa) бросает вызов тейку, что LLM хороши, потому что авто-регрессионны. В общем, работа ведется.
Здесь больше статей про LLM, особенно в странных сеттингах.
В последнее время в топах среди тем на AI конференциях можно встретить LLM и диффузию. Нетрудно догадаться, что научный хайп-трейн наконец-то заставит разработать эффективный метод языкового моделирования с помощью диффузии. На самом деле, попытки уже ведутся давно, например в прошлом году появились MDLM и Score Entropy Discrete Diffusion.
Это вопрос может особо остро встать, когда обычные LLM зайдут в тупик и окончательно выйдут на плато. Может быть уже?
У авто-регрессионных (AR) моделей из-за последовательного (слева-направо) вывода есть ограничения: односторонний контекст и усложнен параллелизм. При этом диффузионные dLLM (двунаправленные) языковые модели могут генерировать токены параллельно, но они ограничены фиксированной длиной контекста и на практике все предложенные ранее dLLM показывали перформанс сильно хуже AR.
В работе "Block Discrete Denoising Diffusion Language Models (BD3-LMs)", ICLR 2025, предлагается гибридный подход, использующий лучшее из обеих парадигм вместе.
Принцип архитектуры блочной диффузии BD3-LMs.
Последовательность разбивается на блоки токенов, на уровне каждого блока реализуется диффузионный процесс через зашумление (маскирование ) части токенов и денойзинг (демаскирование через значение logitа). На уровне всей последовательности, сами блоки генерируются авто-регрессионно. В результате преодолеваются проблемы обеих парадигм, и интегрально оно должно работать лучше
Эвристики при дизайне нейросеток. Когда разрабатываешь архитектуру, сталкиваешься с инженерными проблемами, которые затрудняют масштабирование и использование моделей в реальных сценариях. Мне иногда интересно проследить, какие трюки дизайнерской эквилибристики разрабатываются для их разрешения, для dLLM они следующие:
1.Выбор диапазона для уровня шума. Нетрудно заметить, что в предельном случае, когда размер блока = 1, dLLM подход эквивалентен просто AR-подходу, но на практике обнаруживается сильное различие в perplexity для BD3-LMS и AR-модели на одних и тех же данных. Это объясняется повышенной дисперсии градиентов, так происходит из-за того, что для диффузии вычисления градиентов идут только по зашумленным токенам, если установить уровень зашумления в максимум, perplexity выравниваются. Возникает проблема: поиск границ (clipped) для оптимального диапазона уровня зашумления, для этого предлагается data-driven noise schedules - поиск границ вероятности маскирования на основе данных, минимизирующий дисперсию градиентов по батчу данных.
2.KV-кэширование в трансформерах - это трюк для ускорения вычислений для однонаправленного внимания: чтобы не вычислять KV контекст на каждом шаге заново, мы кэшируем отвечающие за контекст Key и Value представления токенов с прошлых шагов и итеративно его пополняем, подобно тут. Проблема кэширования усугубляется для dLLM из-за двунаправленного контекста, т.е. KV должны пересчитываться заново на каждом шаге, что дезавуирует возможные бонусы от диффузии. Эта проблема преодолевается эвристикой через "холостой" прогон по всем токенам для вычисления и кэширования только KV значений и последующего их использования для демаскирования при диффузии.
Эксперименты на датасетах LM1B и OpenWebText показывает заметное превосходство BD3-LMs над всеми предыдущими dLLM (D3PM, S2DD, MDLM), но она все еще немного уступает AR LLM.
Революции и чуда не случилось, по-прежнему сидим с GPT. Но из примечательного, недавно появился dLLM Mercury Coder, который в 5-10 раз быстрее AR-LLM. А также Large Language Diffusion Models (LLaDa) бросает вызов тейку, что LLM хороши, потому что авто-регрессионны. В общем, работа ведется.
Здесь больше статей про LLM, особенно в странных сеттингах.
AI Scientist-v2. Автономный AI исследователь. Что внутри?
Вышла статья и репозиторий AI Scientist-v2 - системы для автоматизации научных исследований с полным циклом от генерации идей и реализации экспериментов до написания статьи.
Стартап Sakana AI (Токио), развивает автоматизацию науки. Прошлая итерация их системы AI Scientist-v1 делала ресерч и продуцировала науко-подобные статьи, но результаты были очень сырые и очевидно не достигали уровня для хоть какого-то адекватного внешнего рецензирования, а система частично зависела от человека. Текущая версия полностью автономна и способна генерировать работы хорошего уровня - недавно стало известно, что их ИИ-сгенерированная статья "Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization" принята (оценки от рецензентов: 6, 7, 6) на один из ICLR 2025 Воркшопов.
Тут уместно заметить, что это все еще далеко не уровень основного трека ICLR, но сейчас сами по себе воркшопы из A* конф могут быть сопоставимы по уровню с основными треками конф уровня B,а бывает, что статьи с воркшопов и сильно лучше работ из основного трека .
Основные улучшения и методология в AI Scientist-v2:
1. Генерация идей. Автоматически предлагаются разные идеи и гипотезы, и с помощью инструментов Semantic Scholar оценивается их разработанность и актуальность. В прошлой версии пайплайн стартовал с заранее заданного шаблона кода приблизительно определяющего идею и эксперименты, и затем итеративно улучшался. Теперь же система стартует с более абстрактного уровня концептуализации. На выходе этой стадии выдаётся мотивированная гипотеза.
2. Интеграция Vision-Language Model (VLM) для анализа качества графиков и фидбека по ним.
3. Агент-менеджер экспериментов - основная часть системы.
3.1 Менеджер экспериментов. Агент координирует последовательно выполняющиеся этапы:
1) Предварительное создание минимального работающего кода для проверки гипотезы.
2) Оптимизация гипер-параметров для экспов.
3) Проверка гипотезы - запуск итоговых экспериментов.
4) Абляционные исследования - оценка важности разных составляющих.
3.2. Древовидная структура для хождения агента по пространству реализаций. Здесь авторы вдохновляются методом AIDE. Каждый этап (1-4) исследования соответствует дереву. Например, этап 1:
Стартуем с корневого узла гипотезы и через LLM (Claude-3-5) генерируем параллельно несколько дочерних вершин дерева - вариаций Python кода экспериментов и скриптов визуализации. Затем код запускаем в интерпретаторе, по итогу его работы вершины помечаются как non-buggy (успешные) и buggy (ошибочные). Далее порождаем следующее поколение дочерних узлов - от buggy через исправление и от non-buggy через оптимизацию, (новые узлы также non-buggy/buggy) и так далее. Какие узлы достойны перейти в следующее поколение решает LLM. Одновременно могут выполняться несколько узлов (это делает систему параллельной). В конце этапа 1 выбирается наилучший листовой узел и переходит на этап 2 в качестве корневого. И по такой же логике выполняются остальные этапы.
Написание текста: по результатам экспов GPT-o1 пишет LaTeX-файл и GPT-4o над ним "рефлексирует", критикуя, а VLM проверяет графики. В итоге получается готовый текст.
Результаты. Авторами была задана тема воркшопа из его аннотации, получено 20 гипотез, вручную выбрано 3 и далее запущен полностью автоматический процесс генерации для 3х статей. По утверждению авторов, без малейших исправлений статьи напрямую отосланы на рецензирование. Помимо одной принятой, 2 другие получили оценки (3, 7, 4) и (3, 3, 3), т.е. ниже порога принятия, но все равно прилично. Принятая статья сразу же была отозвана — без эксплицитной дискуссии по этой теме публиковать такую работу было бы преждевременно.
Кажется, что пора разрабатывать научную инфраструктуру и делать специальные треки на конфах, где будут выставляться ИИ-сгенерированные статьи и проверятся ИИ-рецензентами. Правда есть ощущение, что в 2024-2025 гг негласно это уже и так происходит.
Здесь больше статей про LLM и геометрию.
Вышла статья и репозиторий AI Scientist-v2 - системы для автоматизации научных исследований с полным циклом от генерации идей и реализации экспериментов до написания статьи.
Стартап Sakana AI (Токио), развивает автоматизацию науки. Прошлая итерация их системы AI Scientist-v1 делала ресерч и продуцировала науко-подобные статьи, но результаты были очень сырые и очевидно не достигали уровня для хоть какого-то адекватного внешнего рецензирования, а система частично зависела от человека. Текущая версия полностью автономна и способна генерировать работы хорошего уровня - недавно стало известно, что их ИИ-сгенерированная статья "Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization" принята (оценки от рецензентов: 6, 7, 6) на один из ICLR 2025 Воркшопов.
Тут уместно заметить, что это все еще далеко не уровень основного трека ICLR, но сейчас сами по себе воркшопы из A* конф могут быть сопоставимы по уровню с основными треками конф уровня B,
Основные улучшения и методология в AI Scientist-v2:
1. Генерация идей. Автоматически предлагаются разные идеи и гипотезы, и с помощью инструментов Semantic Scholar оценивается их разработанность и актуальность. В прошлой версии пайплайн стартовал с заранее заданного шаблона кода приблизительно определяющего идею и эксперименты, и затем итеративно улучшался. Теперь же система стартует с более абстрактного уровня концептуализации. На выходе этой стадии выдаётся мотивированная гипотеза.
2. Интеграция Vision-Language Model (VLM) для анализа качества графиков и фидбека по ним.
3. Агент-менеджер экспериментов - основная часть системы.
3.1 Менеджер экспериментов. Агент координирует последовательно выполняющиеся этапы:
1) Предварительное создание минимального работающего кода для проверки гипотезы.
2) Оптимизация гипер-параметров для экспов.
3) Проверка гипотезы - запуск итоговых экспериментов.
4) Абляционные исследования - оценка важности разных составляющих.
3.2. Древовидная структура для хождения агента по пространству реализаций. Здесь авторы вдохновляются методом AIDE. Каждый этап (1-4) исследования соответствует дереву. Например, этап 1:
Стартуем с корневого узла гипотезы и через LLM (Claude-3-5) генерируем параллельно несколько дочерних вершин дерева - вариаций Python кода экспериментов и скриптов визуализации. Затем код запускаем в интерпретаторе, по итогу его работы вершины помечаются как non-buggy (успешные) и buggy (ошибочные). Далее порождаем следующее поколение дочерних узлов - от buggy через исправление и от non-buggy через оптимизацию, (новые узлы также non-buggy/buggy) и так далее. Какие узлы достойны перейти в следующее поколение решает LLM. Одновременно могут выполняться несколько узлов (это делает систему параллельной). В конце этапа 1 выбирается наилучший листовой узел и переходит на этап 2 в качестве корневого. И по такой же логике выполняются остальные этапы.
Написание текста: по результатам экспов GPT-o1 пишет LaTeX-файл и GPT-4o над ним "рефлексирует", критикуя, а VLM проверяет графики. В итоге получается готовый текст.
Результаты. Авторами была задана тема воркшопа из его аннотации, получено 20 гипотез, вручную выбрано 3 и далее запущен полностью автоматический процесс генерации для 3х статей. По утверждению авторов, без малейших исправлений статьи напрямую отосланы на рецензирование. Помимо одной принятой, 2 другие получили оценки (3, 7, 4) и (3, 3, 3), т.е. ниже порога принятия, но все равно прилично. Принятая статья сразу же была отозвана — без эксплицитной дискуссии по этой теме публиковать такую работу было бы преждевременно.
Кажется, что пора разрабатывать научную инфраструктуру и делать специальные треки на конфах, где будут выставляться ИИ-сгенерированные статьи и проверятся ИИ-рецензентами. Правда есть ощущение, что в 2024-2025 гг негласно это уже и так происходит.
Здесь больше статей про LLM и геометрию.
Forwarded from Зоопарк из слоновой кости
#пост_по_регламенту
Итак, закрываем долги. Ловите оставшиеся небольшие тематические папочки от нашего Зоопарка - небольшие, но интересные:
Математика
Физика
Технические науки
Если кто хочет добавиться, пишите в комменты до конца дня (после не имеет практического смысла)
Итак, закрываем долги. Ловите оставшиеся небольшие тематические папочки от нашего Зоопарка - небольшие, но интересные:
Математика
Физика
Технические науки
Если кто хочет добавиться, пишите в комменты до конца дня (после не имеет практического смысла)
Telegram
Math 03-25
Смотритель Зоопарка invites you to add the folder “Math 03-25”, which includes 11 chats.
Геометрия в LLM, решётки и иерархии.
На недавно прошедшей ICLR 2025 было много топовых статей про интерпретацию эмбеддингов нейросеток, в частности про исследование возникающих геометрических структур в представлениях, выучиваемых LLM.
Геометрия концепций в LLM. В работе The Geometry of Categorical and Hierarchical Concepts in LLMs рассматривается вопрос как иерархия категориальных понятий представляется внутри LLM. Авторы опираются на "гипотезу о линейных представлениях" (подробности в статье от этих же авторов), которая утверждает, что смысловые бинарные признаки (мужчина/женщина, правда/ложь..которые выражаются "контр-фактуальными" парами) соответствуют направлениям в пространстве эмбеддингов. Но это исследование идет дальше и расширяет интерпретацию до более сложных концепций: категориальных и не-контр-фактуальных binary contrasts (млекопитающее-птица).
Основные результаты: разрабатывается способ построения векторных представлений понятий (оперировать только направлениями уже недостаточно, необходимо вводить метризацию). Утверждается, что категориальные концепты (например, млекопитающее) могут быть описаны многогранниками🔷 , авторы называют их k-симплексами 💋 , с вершинами соответствующими элементам (слон, тигр, собака) этой категории. Доказывается, что вектора концепций в семантической иерархии живут в ортогональных подпространствах.
Собрав воедино нарратив выше, мы получаем следующую картину структуры представлений, выучиваемых LLM: вся иерархия в пространстве понятий раскладывается в прямую сумму многогранников, т.е. ортогональных подпространств, каждое из которых отвечает за свой уровень иерархии, например: (организмы) ⊕ (животные, растения) ⊕ (птицы, рептилии, рыбы) ⊕ (конкретные представители птиц).
Все эксперименты, валидирующие теоретические выкладки, проводились на датасете WordNet, на Gemma-2B и LLaMA-3-8B.
Формальные понятия и решётки в BERT. Есть такая область - анализ формальных понятий (FCA), довольно классическая тема в CS/AI, которая предлагает способ представления знаний через "формальные концепты" кодирующие отношения объект-атрибут. В FCA центральной конструкцией является решётка понятий - это отношение частичного порядка (поэтому и решётка) на множестве формальных концептов, представляется она как направленный-ациклический граф (конкретно Диаграмма Хасса). Интересно, что у FCA есть прямая и естественная связь с топологией, тут всем советую читать классиков: Topology of nerves and formal concepts.
В работе From Tokens to Lattices (ICLR 2025) показывается, что обученная MLM (маскирующая языковая модель, типа BERT) структурирует знания о мире и иерархию понятий в виде такой вот решётки. Для проверки этого утверждения в модель подаются структуры вида ([MASK_объект] является животным, которое имеет [MASK_атрибут]) и собирается статистика заполнения маскированных токенов. Затем из неё строятся вероятностные формальные концепты и восстанавливается общая структура решетки понятий. Интересно, что этот метод позволяет находить латентные концепты, которые не имеют явных человеческих названий, но которые модель выучила.
Есть ощущение, что само исследование притянуто за уши, но с другой стороны - а минусы будут?😎
Выразительная сила топологических нейросетей. Немного офф-топ. В работе Topological Blindspots (ICLR 2025) исследуются существующие топологические GNN, работающие через message-passing высшего порядка, и замечаются ограничения их выразительной силы: не могут ухватить инварианты планарности, ориентации, а также метрические свойства. Проблема решается введением нового класса более мощных, вдохновленных эквивариантными GNN, топологических нейросеток, называемых multi-cellular networks (MCN). Доказывается, что MCN могут различить любую пару неизоморфных комбинаторных комплексов, что делает их очень выразительными. Однако MCN плохо масштабируется, поэтому предлагается ориентированная на практику её версия - SMCN. Тестируется на специально созданных бенчмарках оценивающих способность улавливать топологические и геометрические свойства данных.
больше постов про LLM в разных сеттингах здесь
На недавно прошедшей ICLR 2025 было много топовых статей про интерпретацию эмбеддингов нейросеток, в частности про исследование возникающих геометрических структур в представлениях, выучиваемых LLM.
Геометрия концепций в LLM. В работе The Geometry of Categorical and Hierarchical Concepts in LLMs рассматривается вопрос как иерархия категориальных понятий представляется внутри LLM. Авторы опираются на "гипотезу о линейных представлениях" (подробности в статье от этих же авторов), которая утверждает, что смысловые бинарные признаки (мужчина/женщина, правда/ложь..которые выражаются "контр-фактуальными" парами) соответствуют направлениям в пространстве эмбеддингов. Но это исследование идет дальше и расширяет интерпретацию до более сложных концепций: категориальных и не-контр-фактуальных binary contrasts (млекопитающее-птица).
Основные результаты: разрабатывается способ построения векторных представлений понятий (оперировать только направлениями уже недостаточно, необходимо вводить метризацию). Утверждается, что категориальные концепты (например, млекопитающее) могут быть описаны многогранниками
Собрав воедино нарратив выше, мы получаем следующую картину структуры представлений, выучиваемых LLM: вся иерархия в пространстве понятий раскладывается в прямую сумму многогранников, т.е. ортогональных подпространств, каждое из которых отвечает за свой уровень иерархии, например: (организмы) ⊕ (животные, растения) ⊕ (птицы, рептилии, рыбы) ⊕ (конкретные представители птиц).
Все эксперименты, валидирующие теоретические выкладки, проводились на датасете WordNet, на Gemma-2B и LLaMA-3-8B.
Формальные понятия и решётки в BERT. Есть такая область - анализ формальных понятий (FCA), довольно классическая тема в CS/AI, которая предлагает способ представления знаний через "формальные концепты" кодирующие отношения объект-атрибут. В FCA центральной конструкцией является решётка понятий - это отношение частичного порядка (поэтому и решётка) на множестве формальных концептов, представляется она как направленный-ациклический граф (конкретно Диаграмма Хасса). Интересно, что у FCA есть прямая и естественная связь с топологией, тут всем советую читать классиков: Topology of nerves and formal concepts.
В работе From Tokens to Lattices (ICLR 2025) показывается, что обученная MLM (маскирующая языковая модель, типа BERT) структурирует знания о мире и иерархию понятий в виде такой вот решётки. Для проверки этого утверждения в модель подаются структуры вида ([MASK_объект] является животным, которое имеет [MASK_атрибут]) и собирается статистика заполнения маскированных токенов. Затем из неё строятся вероятностные формальные концепты и восстанавливается общая структура решетки понятий. Интересно, что этот метод позволяет находить латентные концепты, которые не имеют явных человеческих названий, но которые модель выучила.
Есть ощущение, что само исследование притянуто за уши, но с другой стороны - а минусы будут?
Выразительная сила топологических нейросетей. Немного офф-топ. В работе Topological Blindspots (ICLR 2025) исследуются существующие топологические GNN, работающие через message-passing высшего порядка, и замечаются ограничения их выразительной силы: не могут ухватить инварианты планарности, ориентации, а также метрические свойства. Проблема решается введением нового класса более мощных, вдохновленных эквивариантными GNN, топологических нейросеток, называемых multi-cellular networks (MCN). Доказывается, что MCN могут различить любую пару неизоморфных комбинаторных комплексов, что делает их очень выразительными. Однако MCN плохо масштабируется, поэтому предлагается ориентированная на практику её версия - SMCN. Тестируется на специально созданных бенчмарках оценивающих способность улавливать топологические и геометрические свойства данных.
больше постов про LLM в разных сеттингах здесь
Please open Telegram to view this post
VIEW IN TELEGRAM