Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
22 - Telegram Web
Telegram Web
Channel name was changed to «Открытый код ФКН ВШЭ»
Добро пожаловать в канал!

Здесь мы публикуем разные проекты с открытым кодом сотрудников и студентов ФКН ВШЭ. Этот канал будет полезен тем, кто хочет больше узнать о научных проектах и ПО, создаваемых на ФКН. Мы будем размещать ссылки на код, анонсы мероприятий и полезные материалы.

Полезные ссылки:
- Наша страница на github
- Наш сайт
LaNeta

Библиотека для оценки времен примешивания между двумя популяциями при двух пульсах миграции. Метод построен на математической теории неравновесного сцепления трех генетических локусов при примешивании популяций. Он позволяет точно исследовать недавнюю (в пределах нескольких десятков поколений) историю примешивания популяций в сложных сценариях, для которых существовавшие ранее методы были неприменимы или неточны. Библиотека будет интересна всем, кто занимается популяционной геномикой.

статья | код
🔥5
Fulu

Библиотека для python, в которой собраны несколько методов для аппроксимации кривых блеска астрономических объектов с использованием машинного обучения.
В библиотеке имплементирован алгоритм на основе гауссовских процессов, а так же некоторые другие, с использованием нормализующих потоков и баесовских сетей.

Библиотека будет полезна астрономам и прикладным исследователям на стыке машинного обучения и астрофизики.

код | статья
🔥5
Probaforms

В этой библиотеке имплементированы несколько архитектур условных генеративных моделей, включая, CVAE, WGAN, Real NVP. Интерфейс, схожий с интерфейсом библиотеки sklearn, позволяет быстро реализовать и проверять идеи. Инструмент ориентирован на работу с табличными данными и подойдет для различных инженерных и научных задач и приложений.

код
🔥4❤‍🔥1
Linda

Библиотека на python, предназначенная для генерации синтетических табличных данных. В библиотеке реализованы несколько глубоких генеративных моделей. Модели выучивают статистические свойства входных данных и сохраняют эти свойства в синтетически сгенерированных. Библиотека может быть полезна аналитикам данных, инженерам и исследователям, занимающимся табличными и/или синтетическими данными.

код
❤‍🔥2👍2🔥1
TabDDPM

Статья сотрудников лаборатории Яндекс, в которой исследуется применимость диффузионных моделей для задач генерации синтетических табличных данных. Авторы сравнивают свою работу с многочисленными бейзлайнами - VAE и GAN-ми. Для этого они семплируют синтетические данные из генеративных моделей и затем обучают на этих данных классические модели: случайный лес, CatBoost и т.п. Авторы показывают, что их метод обходит другие по качеству в различных сценариях, в том числе в сценарии защиты приватных данных.
Работа может быть полезна исследователем, МЛ инженерам и аналитикам данных.

статья | код
🔥7
Star-shaped DDPM

Статья, выполненная в коллаборации коллег из Bayesgroup с другими научными центрами. Авторы исследуют возможность обучения диффузионных моделей с использованием распределений, отличных от гауссовского. Для этого они показывают дуальность между диффузионным процессом в виде звезды (star-shaped) и обычным марковским процессом. Это позволяет получать эффективные алгоритмы для тренировки и семплирования диффузионных моделей в случае, если данные лежат на ограниченном многообразии.
В своих экспериментах исследователи показывают состоятельность своей гипотезы, проверяя ее на простых синтетических данных, а также на гео- и картиночных данных.
Работа будет полезна исследователям, чьи научные интересы лежат в сфере генеративных моделей, а так же ML-инженерам.

статья | код
🔥72
gflownet-rl

Статья коллег их HDI lab и Bayesgroup на стыке генеративного моделирования и обучения с подкреплением. В статье исследуется относительно новый подход в генеративном моделировании — GenerativeFlowNetworks. В своих экспериментах авторы сравнивают предложенный подход к обучению — через алгоритм M-DQN — с предыдущими работами по GFlowNets. В результате обученная модель оказывается не только конкурентной, но и показывает превосходство в ряде случаев.
Статья может быть полезна исследователям из областей обучения с подкреплением и глубоких генеративных моделей, математикам и DL-инженерам.

статья|код
🔥9👍2🥰2
28 – 30 июня 2024 года в г. Переславль-Залесском прошла ХIX конференция «Свободное программное обеспечение в высшей школе»

Михаил Гущин
выступил на конференции, посвященной открытому коду. Михаил рассказал о проекте открытого кода, который был создан на ФКН. Открытый код научных исследований необходим для повышения качества и прозрачности научных работ, а также для стимулирования инноваций и сотрудничества между учёными. Он позволяет исследователям и другим специалистам изучать и анализировать научные работы, выявлять ошибки и недостатки в них, что способствует повышению доверия к результатам исследований. Также открытый код облегчает сотрудничество между учёными, позволяя им совместно работать над решением научных проблем и обмениваться знаниями. Он дает возможность повторно использовать существующие работы, экономя время и ресурсы. Использование программного обеспечения с открытым исходным кодом снижает затраты на исследования, так как не нужно покупать дорогостоящие проприетарные программы. В целом, открытый код научных исследований способствует развитию науки, повышению качества исследований и укреплению международного научного сообщества.

Подробнее ознакомиться со всеми докладами на конференции можно тут
🔥9👍5❤‍🔥2
MARS

В статье описывается новый метод, позволяющий выбирать наиболее оптимальный ранг для тензорного разложения, помогая разрешать компромисс между уровнем сжатия и точностью. Идея метода заключается в выучивании бинарных масок, накрывающих ядра разложения с последующим выбором тех из них, что дают наивысшее качество. В своей работе авторы демонстрируют состоятельность метода, экспериментально подтверждая эффективность сжатия с минимальными потерями в точности для оптимизированной нейросети. Работа может быть полезна математикам, исследователям в области сжатия информации, вычислительной линейной алгебры и глубинного бучения, а также DL и LLMOps инженерам,

статья | код
🔥5👍1🤔1
wu-go

Статья коллег из лаборатории методов анализа больших данных LAMBDA, в которой исследуется применимость метрики Вассерштайна для оценки неопределенности безградиентной оптимизации black-box симуляторов.
В работе авторы используют концепцию Вассерштайновских шаров для определения множества неопределенности (ambiguity set) и глубоких порождающих моделей для оптимизации сигнала симулятора. Состоятельность алгоритма подтвержддается множеством экспериментов как с простыми функциями, так и со сложными многомерными реальными данными с физических экспериментов.
Работа может быть полезна физикам, дата аналитикам, математикам и ML исследователям.

статья | код
🔥10🥰1🤩1
Roerich

Библиотека на python для онлайн и офлайн обнаружения точек разладки для анализа временных рядов. Точка разладки - это момент времени, в котором меняется поведение временного ряда, который характеризует наблюдаемую систему. Библиотека названа в честь Николая Рериха и содержит как известные методы, так и алгоритмы из недавно опубликованных работ. Этот инструмент может быть полезен дата аналитикам, физикам, инженерам и исследователям машинного обучения, специализирующихся на временных рядах.

код
🔥72🥰2👍1
TabR

Код исследователей НУЛ Яндекса, в котором описывается новый алгоритм для улучшения качества глубоких нейронных сетей в задачах обучения с учителем на табличных данных. Основная идея метода - использование моделей с расширенным поиском (retrieval-augmented models). Для целевого объекта такие модели извлекают другие объекты (например, ближайших соседей) из доступных обучающих данных и используют их признаки и метки для лучшего прогнозирования. Авторы исследуют и предлагают улучшенный способ поиска похожего объекта, который позволяет повысить качество полносвязанных нейронных сетей на задачах регрессии и классификации. Исследователи экспериментально показыват, что метод превосходит по качеству LightGBM, XGBoost, CatBoost и другие популярные алгоритмы в ряде классических задач и бенчмарков. Работа может быть полезна ML-инженерам и исследователям, которые работают с табличными данными.

статья | код
🔥9👍1
TabReD

Приглашаем вас на семинар Научно-учебной лаборатории компании Яндекс "TabReD: A Benchmark of Tabular Machine Learning in-the-Wild", который состоится сегодня, 5 августа, в 17:30

Дата: 5 августа 2024 г., 17:30
Докладчик: Рубачёв Иван, младший научный сотрудник Научно-учебной лаборатории компании Яндекс

Аннотация: На семинаре обсудим глубинное обучение на табличных данных. В частности, чем отличаются реальные индустриальные задачи от большинства задач из академических бенчмарков. Расскажем про новый бенчмарк с индустриальными датасетами из kaggle соревнований и из реальных задач Яндекса. Посмотрим как индустриальные условия, где данные могут изменяться со временем, быть более "информативными" и большими влияют на наши выводы о разных алгоритмах.

Место проведения: Zoom
Идентификатор конференции: 863 2391 8773
Код доступа: 880584

статья | код
🔥6
MegNetSparse

Двумерные материалы перспектиыны для развития следующего поколения (опто-) электронных устройств. Основной характеристикой двумерных кристаллов является возможность настройки их свойств посредством контролируемого введения дефектов. Однако пространство поиска для таких структур огромно и требует больших вычислений. В библиотеке на python MegNetSparse реализован метод представлений таких двумерных кристаллов, который улучшает качество алгоритмов машинного обучения. Нейронные сети и CatBoost, обученные на этих представлениях, показаывают снижение ошибки прогнозирования энергии минимум в 3.7 раза. Кроме того, представленный подход на порядок более эффективен с точки зрения ресурсов, чем его конкуренты как в части обучения, так и инференса. Работа может быть полезна инженерам, физикам и исследователям в областе новых материалов.

статья | код
🔥8👍1
2025/07/12 14:45:28
Back to Top
HTML Embed Code: