Telegram Web
Запись созвона

Вадим Порватов, Максим Гончаров, Григорий Чернов, Графовые вероятностные модели и причинно-следственный анализ. YouTube | Дзен | RuTube (~1 час 45 минут).
Созвон про Process Mining

▫️ 28 мая (среда), !! 16:00 МСК
▫️ Google Meet→

Мы недавно обсуждали тренды в области данных и аналитики, и среди трендов NoML отметили процессную аналитику и Process Mining (PM). При этом последний раз доклад про PM у нас был почти год назад. В связи с этим решили вместе с Викторией Красновой из GlowByte Process Intelligence обсудить эту тему.

Так что вспоминаем что такое Process Mining: Альфия Ибрагимова, Тимофей Прибылев, Введение в Process Mining: методы, платформы и кейсы. YouTube | Дзен | RuTube (1 час 30 минут);

И готовимся обсуждать следующие вопросы:
— Какие есть новые интересные бизнес-кейсы применения процессной аналитики?
— Какие задачи решает Process Mining помимо поиска узких горлышек и отклонений в процессах?
— Как эволюционируют технологии и методы PM и что скрывается за термином Process Intelligence (PI)?
— Process Mining вместе или против других технологий: BI, имитационное моделирование, математическая оптимизация и исследование операций, причинно-следственный анализ ML/AI, …?
— Как вообще развитие ML/AI влияет на PM/PI и автоматизацию процессов?
— Нужны ли специальные навыки для работы с Process Mining, или это инструмент для бизнес-пользователей?
— Какие есть особенности и вызовы в части работы с данными в проектах PM/PI?
— Как PM встраивается в общий ландшафт интеллекта принятия решений (Decision Intelligence, DI)?
— Возможна ли полная автономия в data-driven управлении процессами?
— Как преодолеть сопротивление сотрудников при анализе и автоматизации их рабочих процессов?
— Как совместить прозрачность процессов и конфиденциальность данных сотрудников?
— Когда вся рутина будет автоматизирована ИИ, что останется для человека?
Запись созвона

Виктория Краснова, Павел Снурницын, Process Mining & Process Intelligence. YouTube | Дзен | RuTube (~1 час).
Мысли про FL и PPML

Недавно у нас была дискуссия про FL и Privacy-Preserving ML (PPML) вместе с Дмитрием Масловым, Михаилом Фатюхиным, Денисом Афанасьевым, Евгением Поповым и Романом Постниковым: YouTube | Дзен | RuTube. Денис написал отличное саммари, но я может быть где-то дополню.

▫️ Потенциальных бизнес-кейсов объединения данных разных участников много, но оценить эффект от такого объединения заранее очень сложно, а то, что для бизнес-заказчика выглядит как пилот по FL (или другим методам конфиденциальной аналитики), на самом деле является непростым технологическим проектом.

▫️ Вообще ожидания от объединения данных разных владельцев обычно сильно преувеличены. Более того, если говорить про кейсы на табличных (структурированных) данных, то прямое объединение в лоб скорее всего ничего не даст, важны понимание бизнес смысла данных и интеллектуальный feature engineering над объединенными данными. Например, в тех же задачах антифрода большой прирост даёт анализ графа связей и расчет графовых признаков, а в случае федеративных и конфиденциальных вычислений, когда у разных участников есть только локальные части глобального графа, а глобальный граф никто не видит, эта задача непростая (но решаемая).

▫️ В контексте (финансовых) эффектов от объединения данных возникает еще вопрос ценообразования при использовании данных от разных владельцев. Ведь сами по себе данные стоимости не имеют (более того несут затраты: их надо хранить, накапливать и защищать), а стоимость всегда будет зависеть от конкретного бизнес-кейса. Получается, что стоимость может иметь инференс, а задача технологических провайдеров как раз в том, чтобы научиться справедливо разделять и транслировать эту стоимость от поставщиков данных к потребителям.

▫️ В целом если вспоминать разделение на горизонтальное федеративное обучение (HFL) и вертикальное (VFL), то область enterprise кейсов применения FL для безопасной коллаборации данных будет двигать VFL: объединение разных признаков для одного наблюдения, объединение признаков и целевого события, опять же федеративный feature engineering и контроль качества данных, …

▫️ Можно выделить такие два направления задач, которые исследуются в FL:
— FL для массовых распределенных вычислений на устройствах. Причем бывают ситуации, в которых вопросы конфиденциальности вообще остаются за кадром, а важна именно эффективность вычислений на локальных и глобальных сегментах этих устройств (телефоны, беспилотный транспорт, рои дронов и т.д.). Особенности: большое количество устройств (десятки тысяч — миллионы), небольшие наборы данных на каждом устройств, ограничения на доступность устройств и топологию их связности. Здесь одна из основных задач: гарантировать сходимость методов обучения.
— FL для безопасной агрегации данных. В бизнес кейсах применения таких как скоринг или антифрод всё наоборот: небольшое количество участников (десятки), большие датасеты у каждого из участников, и можно считать что инфраструктура участников доступна 24/7. А для обеспечения конфиденциальности потребуется связка FL + что-то еще: FHE, MPC, дифференциальная приватность.

▫️ Для PPML, включая FL, можно выделить такие основные технические сценарии:
— Обогащение данных, и в более широком смысле обогащение информации. Я бы сюда включил и кейс федеративной валидации моделей, т.е. когда модель именно валидируется, а не дообучается на данных одного или нескольких участников.
— Изоляция данных от разработчиков моделей.
— Разделение данных и сред обучения/исполнения.

▫️ Само по себе FL не является средством криптографической защиты информации (СКЗИ). Но для табличных бизнес-кейсов может сработать аргументация, что компрессия данных в передаваемых весах и градиентах настолько высока, что конфиденциальных данных там точно нет. С другой стороны, есть, например, атаки, направленные на восстановления целевой переменной, да и истории про атаки на FL на неструктурированных данных у всех на слуху. А когда в схему добавляется частичное или полное гомоморфное шифрование, то это уже криптография, причём такая, для которой пока нет стандартов.
И еще про FL и конф. вычисления

Также на майском созвоне про FL упоминались следующие материалы:

▫️ Евгений Попов, Что такое федеративное обучение: метод, который приведет к взрывному росту искусственного интеллекта, 2025 (~7 минут).

▫️ Stalactite — опенсорс фреймворк для VFL от ИТМО и Сбера: GitHub, пресс-релиз и материалы конференции ACM RecSys ’24: A. Zakharova et al., Stalactite: toolbox for fast prototyping of vertical federated learning systems, 2024 (~10-20 минут).

▫️ Отчёты-описания по направлениям и технологиям PPML от Ассоциации Больших Данных:
— Общее: Технологии защищенной обработки данных: от защиты данных — к развитию ИИ, партнерским отношениям и экосистемной экономике, 2024 (~30 минут);
— Крипто-анклавы: Конфиденциальные вычисления и доверенные среды исполнения, 2024 (~30 минут);
— MPC: Конфиденциальные вычисления и доверенные среды исполнения. Secure Multiparty Computation, 2025 (~30 минут);
— FL: Конфиденциальные вычисления и доверенные среды исполнения. Federated Learning, 2025 (~30 минут);
Семинар про Scientific ML

▫️ 11 июня (среда), 17:00 МСК
▫️ Google Meet→
▫️ Трансляция YouTube→

Выступает: Михаил Лытаев (СПб ФИЦ РАН, Университет ИТМО)

Тема: Решение обратных задач методами глубокого обучения

Аннотация
Математическая модель позволяет прогнозировать поведение объектов, зная их параметры и параметры внешней среды. Однако зачастую настоящий интерес представляет обратная задача, т.е. определение параметров системы по наблюдаемому (или желаемому) поведению. Классическими примерами обратных задач являются медицинская визуализация, сейсмическая разведка, дистанционное зондирование. Т.е. задачи, в которых непосредственное измерение параметров объекта чрезвычайно дорого или невозможно. Вместо этого интересующие параметры (например, внутреннее строение тела или места залегания полезных ископаемых) пытаются восстановить по данным косвенных измерений. Другим примером являются задачи конструирования метаматериалов и оптимальное управление, когда нужно определить параметры системы таким образом, чтобы она обладала желаемыми свойствами.

Зачастую такие задачи не обладают никакими специальными свойствами, вроде линейности и выпуклости. Кроме того, обратные задачи относятся к классу некорректных: когда нельзя заранее сказать, имеет ли задача единственное физически адекватное решение.
Хотя обратные и некорректные задачи активно изучаются классической теорией и методами функционального анализа, все еще не хватает универсальных методов, подходящих для широкого круга задач. Существующие решения как правило носят узкоспециализированный характер.

Возникшие всего несколько лет назад методы т.н. scientific ML впервые предлагают универсальные методы решения обратных нелинейных задач, используя глубокое обучение. В докладе будут рассмотрены следующие подходы:
— нейронные операторы (DeepONet, FNO), позволяющие обучать обратный нелинейный оператор;
— физически информированные нейронные сети (PINN), позволяющие встраивать физические законы в функцию потерь;
— нейронные дифференциальные уравнения (NeuralODE), позволяющие синтезировать модели на основе дифференциальных уравнений и нейронных сетей;
— автоматическое дифференцирование численных схем, позволяющее строить солверы обратных задач на основе существующих программных реализаций решения прямой задачи.

На простых примерах покажем, как ставятся обратные задачи, в чем заключается суть их некорректность.

Уровень сложности: средний, глубоких знаний в области дифференциальных уравнений, функционального анализа и математической физики не требуется.

Ключевые слова: scientific ML, некорректные задачи, нелинейные операторы, нейронный оператор, нейронное дифференциальное уравнение, автоматическое дифференцирование.
Семинар про многопоточную очередь

▫️ 18 июня (среда), 17:00 МСК
▫️ Google Meet→
▫️ Трансляция YouTube→

Выступает: Виталий Аксенов, доцент ИТМО, руководитель совместной лаборатории ИТМО и ВК по распределённым вычислениям и магистерской программы «Программирование и Искусственный Интеллект». Член программных комитетов SmartData и Sysconf, соорганизатор международной школы SPTDC.

Тема: Конкурентные приоритетные очереди и их применение

Аннотация
Приоритетная очередь является одной из фундаментальных структур данных. Например, она является базовым блоком в алгоритмах поиска кратчайшего пути и планировщиках с приоритетами. Чтобы ускорить эти алгоритмы, хочется использовать параллелизацию, а значит хочется иметь многопоточную версию приоритетной очереди. К сожалению, не всё так просто, так как есть явное узкое место — операция extractMin. Теория говорит, что невозможно избавиться от него и одновременно давать чёткие гарантии на операцию. Что же тогда делать?

В этом докладе мы рассмотрим идеи, которые позволяют ускорить конкурентную приоритетную очередь. Затем, мы выясним, что очередь с точными гарантиями на самом деле не всегда нужна, и, как следствие, можно ослабить требования. Как итог, мы получим быструю очередь MultiQueue, основную идею которой (choice of 2) можно использовать в других областях, например, машинном обучении.

Уровень сложности: средний.

Ключевые слова: многопоточность, структуры данных, приоритетная очередь.
Запись семинара

Виталий Аксенов (ИТМО), Конкурентные приоритетные очереди и их применение. YouTube | Дзен | RuTube (~1 час 10 минут).
Запись семинара про Scientific ML

Михаил Лытаев (СПб ФИЦ РАН, ИТМО), Решение обратных задач методами глубокого обучения. YouTube | Дзен | RuTube (~1 час 30 минут).
Мероприятия NoML в сентябре-октябре

Скоро мы начинаем осеннюю серию семинаров и созвонов. Теперь семинары NoML будут проходить по средам в 18:00 МСК раз в две недели (и не пересекаться с @spaasem). Расписание на ближайшие пару месяцев пока выглядит так:

▫️ 3 сентября | Анна Дубенюк (Ozon Tech), Математическое моделирование в складских процессах, или как работают математики в бигтехе;

▫️ 17 сентября | [тема будет объявлена позже];

▫️ 1 октября | [тема будет объявлена позже];

▫️ 15 октября | Алексей Тарасов (Разумное Расписание), Линейное программирование может больше чем кажется.

Как обычно, обновления и детали предстоящих докладов — в канале @noml_digest и чате @noml_community.

P.S.: База знаний NoML (список прошедших мероприятий и подборки полезных материалов) теперь будет существовать в виде md файлов на GitHub и GitFlic (ещё в процессе переноса).
Семинар про оптимизацию складов

▫️ 3 сентября (среда), 18:00 МСК
▫️ Прямое подключение (Meet)->
▫️ Трансляция (YouTube)->
▫️ Подключение (Яндекс Телемост)->

Выступает: Анна Дубенюк, руководитель группы моделирования и оптимизации складских процессов в Ozon Tech, приглашенный преподаватель ФКН ВШЭ, автор канала @everything_is_eventual

Тема: Математическое моделирование в складских процессах, или как работают математики в бигтехе

Аннотация
Обзорно обсудим, как оптимизационное моделирование помогает решать важные задачи в складских процессах. Поговорим про разные виды задач, инструменты и в целом про создание IT-продуктов и работу математиков в бигтехе.
Про теорию чисел и алгебру в методах оптимизации

Кстати, мы последнее время интересуемся приложениями алгебры и теории чисел в оптимизации (евклидовы (рациональные) решётки, производящие функции, базисы Грёбнера и пр.) Парочка книг и ресурсов, где про это можно почитать:
▫️ T. Rothvoss, Integer Optimization and Lattices (lecture notes), 2016;
▫️ A. Schrijver, Theory of Linear and Integer Programming, Wiley, 1998;
▫️ J.A. De Loera, R. Hemmecke, M. Köppe, Algebraic and Geometric Ideas in the Theory of Discrete Optimization, SIAM, 2013.


А для тех, кто почти не пересекался с мат. оптимизаций, в качестве отправной точки траектории обучения могу порекомендовать следующее,
хорошее и доступное введение:
▫️ J. Matousek, B. Gärtner, Understanding and Using Linear Programming, Springer, 2007;

и далее можно либо глубже познакомиться с теорией линейного программирования, либо погрузиться в особенности целочисленной линейной оптимизации:
▫️ D. Bertsimas, J. Tsitsiklis, Introduction to Linear Optimization, Athena Scientific, 1997;
▫️ L. Wolsey, Integer Programming, 2nd ed., Wiley, 2020.


Более полный список литературы есть в нашей базе знаний->
Про математику в складских процессах

Запись вчерашнего семинара скоро будет, а пока материалы от Анны:

▫️ Статья на Хабре: Математика на складе. Как оптимизировать хаос, 2025 (~8 минут);
▫️ Доклад на Code Fest: Математическое моделирование на складах, или Как математика спасёт мир, 2024 (~40 минут);
▫️ Telegram-канал Анны про прикладную математику: "всё предельно" @everything_is_eventual.

P.S.: А еще на следующей неделе будет конференция E-CODE с секцией по ML/DS.
Запись семинара

Анна Дубенюк (Ozon Tech), Математическое моделирование в складских процессах, или как работают математики в бигтехе. YouTube | Дзен | RuTube (~1 час 20 минут).
Про SageMath

Есть такая система компьютерной алгебры SageMath или просто Sage. Сейчас это скорее уже даже не CAS-система, а сборка библиотек, фреймворков и их обвязок в единый пакет для научных вычислений с интерфейсом взаимодействия на Python, то есть своего рода опенсорсный аналог Wolfram Mathematica, Maple и местами MATLAB.

Если вы учитесь на математематическом факультете, то познакомиться с SageMath — это неплохая возможность изучить Python оставаясь в контексте математики.
Ну а если вы занимаетесь DS/ML/AI, то это неплохая возможность изучить/повторить алгебру, теорию чисел (и другие разделы математики с сильными вычислительными аспектами) оставаясь в контексте написания кода на Python.

Вот небольшая подборка материалов для самообучения Sage:
▫️ Книга: A. Casamayou, P. Zimmermann et al., Calcul mathématique avec Sage, 2013 (перевод на английский: Computational Mathematics with SageMath, 2018);
▫️ Туториал: Sage Tutorial (версия на русском);
▫️ Курс от создателя Sage Уильяма Cтайна Sage Course 2014 (этот курс конечно сильно устарел, но он очень хорош по структуре и идее обучить начинающих математиков стеку Python, git, Cython), ссылки на сохранившиеся записи лекций;
▫️ В научных вычислениях очень важна высокая производительность, а сам Стайн кстати причастен к созданию Cython, так что еще в этом списке книга по Cython: K.W. Smith, Cython: A Guide for Python Programmers, 2015

Обширная библиотека материалов есть также на странице проекта SageMath:
▫️ Список известных курсов с применением Sage;
▫️ Книги и другие ресурсы.


P.S.: Ещё у Cтайна есть учебники по различным разделам теории чисел, в которых изложение теоретического материала часто сопровождается вычислительными примерами на Sage:
▫️ W. Stein, Elementary Number Theory: Primes, Congruences, and Secrets, 2008;
▫️ W. Stein, Algebraic Number Theory, a Computational Approach, 2012;
▫️ W. Stein, Modular Forms: A Computational Approach, 2007;
▫️ K.A. Ribet, W.A. Stein, Lectures on Modular Forms and Hecke Operators, 2017;
▫️ W. Stein, The Birch and Swinnerton-Dyer Conjecture, a Computational Approach, 2007.
Полезные мероприятия (не только NoML)

▫️ 16 сентября (вторник), 17:40 МСК | Олег Фатюхин (Tech Lead, Guardora), Роман Постников (CEO, Upgini), Конфиденциальные вычисления и доверенные среды исполнения: федеративное обучение, регистрация-> (бесплатное участие);

▫️ 18 сентября (четрвег), 16:00 МСК | Альфия Харламова (Data Sapience), Илья Маршаков (Data Sapience), Kolmogorov Online Day: практики MLOps, управление жизненным циклом моделей, управление фабрикой ИИ агентов, регистрация-> (бесплатное участие).


P.S.: А в связи и в преддверии этих мероприятий можно вспомнить релевантное из репертуара NoML:
▫️ Все мероприятия про конфиденциальные вычисления и связанные вопросы (GitHub KB);
▫️ Recap про Kolmogorov (NoML Digest).
Семинар про оптимизацию оптимизации оптимизаторов

▫️ 1 октября (среда), 18:00 МСК
▫️ Подключение→

Выступают: Алексей Никоноров (GlowByte), Вазген Амбарцумов

Тема: Повышение производительности солвера на примере решения одной задачи назначения

Аннотация
Продолжаем развивать тему оптимизации оптимизаторов, предыдущий доклад:
▫️ Максим Гончаров, Алексей Никоноров, Опыт по ускорению оптимизационных open source солверов на примере решения задачи NBO, 2024. YouTube | Дзен | RuTube (~1 час 45 минут).

В этот раз рассмотрим, каким образом тонкая настройка параметров солвера, работа с эвристиками и кастомная реализация алгоритмов позволяют получить ещё большее ускорение производительности относительно того, что даёт MILP-солвер “из коробки”.
Запись семинара

Алексей Никоноров (GlowByte), Повышение производительности солвера на примере решения одной задачи назначения. YouTube | Дзен | RuTube (~50 минут).
Семинар про линейное программирование

▫️ 15 октября (среда), 18:00 МСК
▫️ Подключение→

Выступает: Алексей Тарасов, Разумное Расписание

Тема: Линейное программирование может больше чем кажется

Аннотация
Метод ЛП имеет ограничения по скорости и размеру задач. На примере реальных кейсов я расскажу, что ограничения кажущееся и их на самом деле нет. Как Нео вы сможете уворачиваться от пуль и гнуть ложки, и как доктор Стрэндж сможете планировать сразу мультиреальность.
2025/10/12 23:32:17
Back to Top
HTML Embed Code: