Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
LLM-Microscope

В репозитории содержится код для экспериментов, показывающих линейность трансформеров. Авторы исследуют механизм, при котором соседние слои декодера (например, в GPT, LLaMA, OPT и BLOOM) оказываются почти линейно зависимыми. Используя Procrustes-метрику, показывается, что выходы последовательных слоев совпадают с точностью ~99% (но лишь при учёте residual connection). Исследователи демонстрируют, что нормировка выхода каждого блока относительно residual-части весьма мала, и это приводит к «линейности» между слоями. Кроме того, в работе изучаются задачи «прореживания» (pruning) слоёв на основе выявленной линейности и замены некоторых блоков их линейными аналогами без значимой потери в качестве. Предложены также регуляризационные приёмы на основе косинусной близости, снижающие линейность для повышения выразительности модели и улучшения результатов на ряде задач (TinyStories, SuperGLUE). Работа может быть полезна исследователям и практикам, занимающимся анализом внутренней структуры больших языковых моделей, а также LLM-инженерам, стремящимся к более эффективным моделям при сохранении качества.

статья | код
👍6🔥2
ai4material_design

В репозитории приведён код, демонстрирующий эффективность подхода со «сжатым» представлением дефектов в двумерных материалах. Авторы отмечают, что 2D-кристаллы обладают колоссальным потенциалом для модификации их свойств путём контролируемого введения вакансий и замещений, однако большинство универсальных моделей плохо учитывают возникающие при этом квантовые эффекты. В работе предлагается рассматривать только атомы, непосредственно относящиеся к точечным дефектам (включая «виртуальные» атомы‑вакансии), и использовать графовые нейронные сети, дополненные специфичными для 2D-фаз признаками — разницей координат по оси z и новой меткой «EOS», связанной с осцилляциями электронных оболочек. Эксперименты показывают, что подход со «сжатым» представлением существенно превосходит классические графовые нейросети и методы с предварительными признаками. Авторы подчеркивают, что их метод значительно упрощает моделирование дефектных систем, повышая точность и эффективность. Работа может быть полезна инженерам, физикам и исследователям в областе новых материалов.

статья | код
🔥91
SAE-Reasoning

Коллаборация ученных из АИРИ, ВШЭ, Сколтеха, МТУСИ и Сбера, посвященная интерпретации больших языковых моделей с помощью SAE - разреженных автоэнкдеров. В репозитории находится код, демонстрирующий, как SAE могут выявлять и корректировать специфические признаки рассуждения внутри больших языковых моделей. Авторы анализируют активации модели при генерации цепочек рассуждений, используя специальную метрику ReasonScore, которая показывает, насколько конкретная латентная компонента связана с логическими словами и фразами. Далее исследователи показывают, как выборочно усиливать такие признаки в процессе генерации: при steering повышается склонность модели к пошаговым объяснениям, перепроверке вычислений и более глубокому анализу. Эксперименты на ряде задач (например, MATH-500) подтверждают, что подобная тонкая настройка увеличивает как количество промежуточных выводов, так и общее качество ответа. Код может быть полезен специалистам, занимающимся интерпретацией внутренних представлений LLM, DL-инженерам и DS-специалистам

статья | код
🔥7
rapid-ao

В репозитории содержится код для воспроизведения экспериментов, описанных в работе про “Adaptive Divergence”, где ученные из лаборатории LAMBDA ФКН решают задачу быстрого согласования распределений в условиях дорогих симуляторов. Основная идея — использовать новое семейство «адаптивных расхождений», которое динамически регулирует мощность дискриминатора, переключаясь с «узких» моделей на «более сильные» лишь тогда, когда исходные распределения уже близки друг к другу. В частности, авторы демонстрируют, как это семейство ускоряет процедуру настройки высокоразмерных симуляторов с помощью чёрных ящиков. Репозиторий может быть полезен исследователям из физики, DL-инженерам и DS-специалистам

статья | код
🔥52
digital-twin

В данном исследовании группа ученых из ВШЭ моделируют производительность систем хранения данных, используя вероятностный подход. Они рассматривают различные компоненты — кэш, SSD, HDD, — собирают показатели IOPS и задержки при разных конфигурациях и нагрузках, а затем обучают свои модели CatBoost и Normalizing Flow. Авторы демонстрируют, что этот подход не только предсказывает средние значения, но и охватывает всё распределение метрик, что особенно важно для оценки неопределенности и сценариев «цифрового двойника». Исследователи также проверяют надежность предсказаний с помощью известных зависимостей и отмечают, что полученные результаты тесно соответствуют реальным измерениям, превосходя простые методы вроде kNN. Данная методика может быть применена для анализа производительности, оптимизации настроек и предиктивного обслуживания систем хранения данных. Вклад авторов не ограничивается выбранным подходом: они также предоставляют открытый доступ к набору данных, использованному в исследовании. Найти его можно в репозитории с кодом. Работа может быть полезна ML-инженерам и DS-специалистам.

статья | код
6🔥4👍1🤔1
hogwild_llm

В репозитории содержится код для реализации и запуска параллельного инференса больших языковых моделей (LLM) по методу Hogwild! Inference — подхода, при котором несколько копий одной и той же модели выполняются параллельно и синхронизируются через общий attention-кэш. Вместо заранее заданной стратегии кооперации, модели сами решают, как разделить задачи, используя видимость токенов друг друга в общем KV-кэше и минимальную задержку при взаимодействии. Метод позволяет моделям в процессе инференса договариваться о стратегии: распределять подзадачи, исправлять ошибки других агентов, перепланировать ход решения. Для этого используются специальные конфигурации shared attention cache (contiguous, interleaved и combined), а также промптинг, стимулирующий модели проверять, не дублируют ли они работу друг друга. Эксперименты с открытыми LLM (например, QwQ-32B, DeepSeek-R1) показывают, что даже без дополнительного обучения модели способны обнаруживать дублирование, корректировать план решения и достигать сопоставимого или лучшего качества при меньшем количестве итераций. Кроме того, предложенная архитектура демонстрирует хорошее аппаратное ускорение за счёт снижения необходимости повторного вычисления attention-блоков. Код может быть полезен LLM-инженерам и исследователям, специалистам по агентам и DL исследователям.

статья | код
7🔥7😍1
MIGTF

В репозитории содержится код для воспроизведения результатов работы по дополнению пропущенных связей в knowledge graph с использованием новой модели факторизации тензоров со смешанной геометрией (MIG-TF). Авторы предлагают подход, комбинирующий евклидову геометрию, через Tucker-разложение, и гиперболическую геометрию, через введённый гиперболический тернарный член взаимодействия TPTF. Такая конструкция позволяет более точно моделировать структурные особенности реальных knowledge graph, где распределение связей зачастую лишь частично следует иерархической структуре. В экспериментах показано, что предложенная модель превосходит по качеству как чисто евклидовые, так и чисто гиперболические модели, достигая state-of-the-art результатов на стандартных датасетах FB15k-237, YAGO3-10 и WN18RR при меньшем числе параметров. Особенно заметно улучшение на графах с нарушенной иерархией (например, FB15k-237). Кроме того, авторы изучают влияние кривизны гиперболической компоненты, вводят регуляризацию через ортогонализацию и анализируют робастность модели к зашумлённости обучающих данных. Работа может быть полезна исследователям в области factorization-based подходов к knowledge graph completion, а также специалистам, занимающимся построением компактных и эффективных моделей для анализа графовых данных со смешанной структурой.

статья | код
🔥81
В канун Первомая выпустили статью на Хабре, где рассказываем о деталях реализации нашего проекта OSA — "улучшателя" научных репозиториев на базе LLM.

https://habr.com/ru/companies/spbifmo/articles/906018/

Также в статье поделились примерами использования OSA и обратной связью от коллег, попробовавших проект на своих репозиториях. В их числе — сотрудники лаборатории КТ ИТМО, ФКН ВШЭ и бразильского Universidade Federal de Juiz de Fora.

Приятного чтения!

P.S. Попробовать Осу можно здесь. Будем рады вашим звёздочкам.
🔥61👍1
invertible-cd

В репозитории содержится код для реализации метода Invertible Consistency Distillation (iCD) — нового подхода к ускоренному текстово-ориентированному редактированию изображений с возможностью точной инверсии входного изображения. Исследователи из Яндекса и ВШЭ демонстрируют, что iCD позволяет выполнять как генерацию по текстовому описанию, так и обратное кодирование реального изображения в латентное пространство за 3–4 итерации, что делает метод пригодным для быстрой и реалистичной генерации и правок. Ключевым элементом является модифицированная схема consistency distillation с разделением на прямую и обратную модели, поддерживающими многопроходную инверсию. Дополнительно используется динамическое управление шкалой classifier-free guidance, что улучшает качество реконструкции без увеличения вычислительных затрат. Эксперименты на моделях SD1.5 и SDXL показывают, что iCD превосходит или сравним по качеству с SOTA-методами, такими как NTI, InfEdit, ReNoise, но работает в несколько раз быстрее: 8 шагов против 50–150 у конкурентов. Работа может быть полезна разработчикам инструментов для редактирования изображений, исследователям в области дистилляции диффузионных моделей и тем, кто разрабатывает быстрые пайплайны генерации и редактирования в условиях ограниченных ресурсов.

статья | код
🔥6👍2
Forwarded from ФКН НИУ ВШЭ
SmartMLOps — платформа для превращения изобретений в полноценные сервисы

Специалисты Вышки создали MLOps-платформу для исследователей и студентов ВШЭ в области искусственного интеллекта, которые хотели бы превратить своё изобретение в полноценный сервис.

В чём преимущества платформы?
сокращает затраты времени и ресурсов для получения продуктовых сервисов
обеспечивает необходимый уровень надёжности, безопасности и прозрачности использования ИИ-технологий
позволяет разработчикам экономить на непрофильной деятельности, такой как системное администрирование, DevOps и CI/CD

⭐️Чтобы воспользоваться платформой, нужно оставить заявку и дождаться её согласования. До конца 2025 года все желающие могут принять участие в опытной эксплуатации системы SmartMLOps.

«Разработка такого интересного и перспективного инфраструктурного проекта стала существенным вызовом и назревшей необходимостью для университета. Нам удалось сформировать уникальную команду профессионалов, привлечь к работе студентов и стажёров-исследователей»,

— рассказал Сергей Лебедев, руководитель департамента программной инженерии, доцент 💻💻💻

#новости #ии
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍1
🎉 Стартует конкурс проектов с открытым кодом для студентов ФКН НИУ ВШЭ! 🎉

Приглашаем вас принять участие в первом конкурсе проектов с открытым исходным кодом. Это отличный шанс прокачать свои навыки, сделать вклад в open-source сообщество и выиграть призы!

📌 Цель конкурса
– Популяризировать открытые проекты среди студентов ФКН НИУ ВШЭ.
– Поощрить создание и публикацию собственных разработок с открытым исходным кодом.

👥 Кто может участвовать
– Аспиранты и студенты всех курсов и направлений подготовки ФКН.
– Индивидуальные авторы и команды.
Принимаются проекты любых форматов:
* Результаты курсовых работ (КР)
* Выпускные квалификационные работы (ВКР)
* Любые другие инициативные разработки

🚀 Что вас ждет 🚀
- Прокачка навыков 🤔
- Наставничество от экспертов из партнёрских организаций 🤑
- Интеграция в мировое open-source сообщество 👏
- Подарки и награды победителям конкурса 💰

📝 Как стать участником
1) Заполните заявку на сайте конкурса
2) Прикрепите ссылку на репозиторий вашего проекта (GitHub/GitLab/GitVerse)

Дедлайн — 8 июня
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3😍1
Открытый код ФКН ВШЭ pinned «🎉 Стартует конкурс проектов с открытым кодом для студентов ФКН НИУ ВШЭ! 🎉 Приглашаем вас принять участие в первом конкурсе проектов с открытым исходным кодом. Это отличный шанс прокачать свои навыки, сделать вклад в open-source сообщество и выиграть призы!…»
Forwarded from ФКН НИУ ВШЭ
Kotlin-митапы снова в игре

💻💻💻 совместно с российской группой пользователей Kotlin открывают серию митапов, посвящённых разным аспектам разработки на Kotlin и экосистемы языка. Митап подойдёт как новичкам, так и бывалым котлиновцам.

В программе:
⤵️ 18:00 — Открытие митапа
🎙️ Александр Нозик, лидер Kotlin-сообщества

⤵️ 18:10 — Доклад «Горячие и холодные потоки в Kotlin Flow»
🎙️ Яна Седова, специалист по автоматизации технических процессов в Яндекс Крауд

⤵️ 19:10 — Доклад «Пополнение в семье kotlinx: зачем нам этот ваш kotlinx.fuzz?»
🎙️ Александр Соколинский, Яндекс Go, Android Architect

📆 Когда: 30 мая в 18:00
🗺️ Где: Покровский бульвар, 11

Участие бесплатное по регистрации 🐭

#анонсы #разработка
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥53👍2
Forwarded from Yandex for Developers
HTML-минификатор для .NET и эмулятор DOS в браузере: победители программы грантов от Yandex Open Source

Подводим итоги программы поддержки независимых разработчиков от Yandex Open Source. Нам прислали 120 проектов в трёх категориях: обработка и хранение данных, машинное обучение и разработка. Забавный и поучительный факт: один участник отправил заявку 15 марта в 23:59 — в последнюю минуту подачи. И победил!

➡️ Во всех трёх треках мы выбрали 12 победителей, проекты которых показались нам самыми интересными, полезными и перспективными. Каждый рассказал немного подробностей о своей работе в статье на Хабре. Посмотрите: возможно, откроете для себя новые полезные инструменты.

⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке

Подписывайтесь:
💬 @Yandex4Developers
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤‍🔥2
Forwarded from Научный опенсорс (Nikolay Nikitin)
Мы тут вместе с учебно-научной лабораторией ИТМО LISA организовали мини-семинар по разборке удачных и неудачных реализаций студенческих репозиториев. Заодно обсудим опыт улучшения некоторых из них с помощью нашего ИИ-инструмента OSA (про который недавно писали на Хабре).

С нашей стороны в роли эксперта участвует Андрей Гетманов - исследователь из NSS Lab, руководитель разработки OSA и активный участник соообщества ITMO OpenSource.

Если интересно послушать - подключиться можно тут в зуме, вот как раз начинаем.
🔥74👍2
tencdm

В репозитории содержится код для воспроизведения экспериментов по генерации текста методом TEncDM (Text Encoding Diffusion Model) — диффузионной модели, работающей в пространстве выходных представлений предобученной языковой модели, а не в embedding-пространстве, как в большинстве предыдущих работ. Авторы демонстрируют, что использование таких представлений, содержащих контекстную информацию, существенно упрощает задачу денойзинга и повышает качество генерации. Ключевая особенность TEncDM — декодер, специально обученный восстанавливать текст из зашумленных латентных представлений, что позволяет компенсировать ошибки на этапах диффузии. Также авторы подробно исследуют влияние self-conditioning и scheduler’ов шума на качество модели. Предложен новый scheduler (tan-d), равномерно распределяющий сложность по всем шагам денойзинга. В экспериментах показано, что при использовании таких компонентов модель превосходит существующие SOTA подходы (DiffuSeq, AR-Diffusion и др.) на задачах перефразирования, суммаризации и упрощения текста (QQP, XSum, Wiki-Auto). Репозиторий предоставляет полный пайплайн: тренировка диффузионной модели в пространстве энкодингов, обучение декодера с corrupt-стратегией, настройка self-conditioning и различных схем шумов. Код открытый, реализован на PyTorch и включает запуск на множестве датасетов (ROCStories, Wikipedia и др.), поддерживая генерацию в условиях как с условием (conditional), так и без него. Работа может быть полезна исследователям в области генерации текста, особенно тем, кто занимается развитием диффузионных моделей, а также разработчикам, ищущим более интерпретируемые и мощные альтернативы автокорреляционным языковым моделям.

статья | код
9🔥6👍2😍2
PersonGenSampler

В репозитории представлен код для воспроизведения результатов работы по критическому анализу стратегий семплирования в text-to-image генерации с использованием диффузионных моделей. Авторы подробно рассматривают различные подходы: Mixed, Switching, Multi-stage, Masked sampling, а также сравнивают их с существующими решениями. В частности, предлагается использовать смешение траекторий генерации между концептом и его суперклассом, а также различные способы комбинирования guidance сигналов. В серии экспериментов на датасетах Dreambooth и различных бэкбонах (SD-2, SD-XL, PixArt-alpha) показано, что грамотно выбранная стратегия семплирования может заметно повысить соответствие изображе. Отдельное внимание уделено анализу вычислительных затрат различных методов. Результаты обобщены в виде практического фреймворка для выбора стратегии в зависимости от приоритетов. Работа будет полезна исследователям и инженерам, занимающимся генеративными моделями, а также разработчикам приложений в креативных индустриях и автоматизации контента.

статья | код
4🤔1
Challenges-on-generating-structurally-diverse-graphs

В репозитории опубликован код для воспроизведения результатов работы по генерации структурно разнообразных графов. Авторы впервые формализуют и системно исследуют задачу построения наборов графов с максимальным структурным разнообразием — задача, критически важная для тестирования алгоритмов на графах, оценки нейросетевых приближений и построения бенчмарков. В работе подробно анализируется, как определить меру разнообразия для множества графов и почему задача не сводится к стандартным генераторам случайных графов. Введён показатель diversity на основе агрегирования попарных расстояний между графами (Energy), обладающий важными теоретическими свойствами, как монотонность и уникальность. Экспериментально исследованы и сравниваются различные алгоритмы генерации: жадный отбор из большого пула, генетические алгоритмы, локальная оптимизация и нейросетевые генеративные модели. Показано, что предлагаемые методы существенно превосходят классические случайные модели, например, Erdős–Rényi, GraphWorld, по мере diversity, позволяя получать выборки графов с сильно отличающимися характеристиками. Исследование также даёт новые инсайты о свойствах различных метрик расстояния между графами. Работа будет полезна исследователям в области графов, алгоритмистам, а также разработчикам бенчмарков и тестовых наборов для графовых задач.

статья | код
5🔥2👍1
🗂️Спикер: Иван Рубачёв,
Исследователь Yandex Research, Младший научный сотрудник Научно-учебной лаборатории компании Яндекс

Аннотация: В развитие эмпирической науки про глубокое обучение существенную роль играет open-source (в широком смысле - открытый код, данные, идеи и воспроизводимые исследования). В последнее время эту идею разделяют не все. Поговорим про то насколько открытость важна со стороны науки, и что для ее продвижения можно делать. Так как я занимаюсь глубинным обучением на табличных данных – какое-то количество примеров будет из этой области, а не из мира LLM.

📆Дата: 27 июня в 18:00
Место: Zoom

Идентификатор конференции: 884 0765 6151
Код доступа: 655748
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍3🐳3🤔1😍1
DVAR

В репозитории опубликован код для воспроизведения результатов работы по ускорению персонализации text-to-image моделей при помощи нового критерия ранней остановки обучения. Авторы анализируют динамику тренировки популярных методов кастомизации, таких как Textual Inversion, DreamBooth и Custom Diffusion, и показывают, что стандартные метрики сходимости не отражают реальный прогресс и часто неинформативны. Ключевой вклад работы — введение критерия Deterministic VARiance Evaluation (DVAR), который позволяет автоматически и гораздо раньше завершать обучение без потери качества результатов. DVAR оценивает стабилизацию детерминированной версии loss на фиксированном наборе данных, что позволяет сократить время обучения до 8 раз. Авторы демонстрируют эффективность подхода на 48 концептах и трёх популярных personalization-методах. Эксперименты показывают, что ранняя остановка по DVAR почти не снижает качество генерации, а также предотвращает переобучение и экономит вычислительные ресурсы. Работа будет полезна исследователям и инженерам, работающим с кастомизацией diffusion-моделей, а также разработчикам инструментов для креативных и промышленных задач генерации изображений.

статья | код
❤‍🔥6😍31🔥1
2025/07/08 21:58:43
Back to Top
HTML Embed Code: