Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
78 - Telegram Web
Telegram Web
📌 В ожидании свежих постов (они уже в процессе написания 👨‍💻)

Хочу поделиться тем, что в этот четверг в 19:00 принимаю участие в подкасте от Мегафона, где будем обсуждать исследования в области ML и языковые модели. Это будет мой первый опыт обсуждения ML вопросов на публику, поэтому я заинтригован тем, как всё пройдет 😊

📣 Приглашаю вас поучаствовать! Буду рад увидеть услышать вас и ответить на ваши вопросы!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10
Forwarded from Данные люди
Привет, друзья! 🐕

Мы рады сообщить вам, что уже 15 февраля в 19.00 по мск снова встретимся с вами в эфире!

Гость выпуска: Андрей Филатов, Руководитель направления по исследованию данных Sber AI

Поговорим об исследованиях в области больших данных, LLM, а также о том, чем такие модели могут нам помочь

Ну и конечно, разыграем приз 💜 за лучший вопрос

Подключайтесь! Готовьте вопросы!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20😍1
🧱 Синтетические данные в компьютерном зрении
#synthetic_data

В последние два месяца меня сильно увлекла тема влияния данных на качество моделей. Современный deep learning уходит от "давайте поэкспериментируем с архитектурами, придумаем новую 400-ую активацию" и движется в сторону "увеличим количество качественных данных и сделаем модель побольше", что в итоге приносит стабильный прирост качества (тут интересно почитать заметку исследователя из OpenAI , который пишет, что ваша результирующая модель, по факту, является датасетом, на котором она училась). Но количество качественных данных ограничено, и что делать, когда их мало?

Для себя я нашел следующий ответ - использование синтетических данных, созданных с помощью генеративных моделей, и вот почему:

👉 Генерация мультимодальных датасетов из обычных. По моему опыту, один из действительно успешных кейсов применения синтетических данных. Мы используем мультимодальную модель для создания текстовой разметки. Например, генерация caption для изображений уже стала стабильным приемом в обучении генеративных моделей - работы Pixart, DALLE, Sora отличное этому подтверждение.

👉 Генерация датасетов с нуля. Смотришь на генерацию Stable Diffusion и думаешь, вау, почему бы не сгенерировать нужный датасет. Но на практике данные, использованные для обучения, представляют общий домен, и если мы захотим сгенерировать медицинские данные, то модель генерирует бред. Вдобавок, картинки с диффузией очень просты по структуре сцены, и в них сложно увидеть различные сложные сцены. Кажется, что только минусы, но! Когда у вас мало данных, добавление синтетических данных и дообучение на реальных данных действительно повышают качество. Главное, помните, что если есть возможность добыть реальные данные, то это до сих пор лучший способ улучшить качество модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
4
👉 Аугментация текущих датасетов. Это тема, которой я сейчас активно исследую. Идея в следующем: у нас есть датасет, где все люди с белой кожей. Что произойдет, если мы применим модель детекции людей, обученную на таких данных в Африке? Ответ: (Ничего хорошего). Поэтому, чтобы избежать таких проблем, мы можем поменять цвета и формы объектов в обучающей выборке и таким образом аугментировать ее, делая более устойчивой к таким изменениям.

👉 Адаптация синтетических данных. Возможно, вы видели, что генеративные модели могут нарисовать полноценную картину по скетчу. А почему бы их не использовать, чтобы создать огромное количество данных (рендеры из Blender, NVIDIA Omniverse или Unity) и адаптировать под реальное распределение. И оказывается, такое работает, особенно на "заводских" задачах, таких как детекция нужных деталей.

🤔Что можно почитать по теме?

⤷ Команда из Google делает контрастивное обучение на синтетических данных , улучшает его и исследует, сколько синтетических данных нужно для обучения.
⤷ Качество на ImageNet можно улучшить с помощью синтетических captions, а датасет для ImageNet можно сгенерировать полностью с нуля.
⤷ Из диффузии можно сгенерировать датасеты по сегментации и детекции.

😎 Послесловие:

Тема синтетических данных сейчас 24/7 в моей голове, потому что данные (информация) - новое золото, и я хочу понять, как сделать синтетические данные хорошими, чтобы каждый смог обучить модель без наличия огромного числа разметчиков. Поэтому мне интересен ваш опыт/мысли по использованию синтетических данных. Делитесь ими в комментариях, буду рад обсудить!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9
Подкаст про искусство

В конце января мне посчастливилось принять участие в подкасте от «Синхронизации», посвященном искусству в век генеративного ИИ. И я до сих пор искренне рад этой возможности, ведь наконец-то результат наших трудов вышел в свет. Вот основные моменты видео (осваиваю инструменты для суммирования видео):

1️⃣ На самом деле, если ИИ появился в 19 веке, он бы завоевал признание художников того времени. Ведь раньше главным критерием было воспроизведение и комбинирование идей – в этом отношении искусственный интеллект уже опередил нас. Но сейчас основной критерий искусства – новизна, и в этом аспекте искусственный интеллект явно уступает человеку.

2️⃣ ИИ может помогать художникам в процессе работы, но он не способен полностью заменить их творчество. Ведь искусственный интеллект способен выполнять лишь те задачи, на которые он запрограммирован, и не может создавать что-либо новое.

3️⃣ Важно налаживать диалог между художниками и разработчиками: разработчики рассказывают о том, как пользоваться инструменты, а художники учат пониманию прекрасного.

Приятного просмотра! 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥2
Что лежит под капотом модели OpenAI SORA? 🤔

13 марта вышло декабрьское интервью с первым автором модели SORA — Tim Brooks, в котором он рассказывает об одной из своих предыдущих работ InstructPix2Pix. Эта работа по себе очень прикольная и рекомендую её к прочтению. Но давайте сосредоточимся на ключевых моментах, которые Tim выделил в обучении генеративных моделей.

➡️ DataCentric approach. Для решения сложных задач, можно собрать большой набор данных под конкретную задачу и использовать самую простую модель для обучения

Искусственный интеллект не магия, а лишь автоматизация отображения одного множества в другое.


Хотите пруфов? Посмотрите его работу 2022 года (за два года до SORA). Качество генерации видео намного лучше текущих моделей (есть динамика сцены, переходы достаточно плавные и видео само по себе очень длинное). А что под капотом? 66 videos with a median duration of 6504 frames = порядка 450к изображений, чтобы просто "научится кататься на лошади".

Больше данных -- лучше качество ☝️

➡️ Синтетические данные. Tim очень верит в синту по следующей причине — если обучить модель на огромном числе симуляций, то в реальности ваша модель уже не бесполезна, а иногда даже работает.

👉 Роборука легко научилась собирать куб-рубик, хотя в реальности никогда с ним не взаимодействовал.

👉 Модель InstructPix2Pix училась редактировать только синтетические картинки, но на практике так же хорошо может редактировать и реальные изображения.

➡️Вывод:

По качеству SORA видно как запарились OpenAI по сбору данных (из публичных источников, ага 🥴). Так как они планируют опубликовать модель позже, то думаю, что они собрали какое-то MVP, которое как раз зарелизили, а дальше лишь будут доливать данные/ускорять инференс (один час на минутную генерацию долго...). А пока можно наслаждаться шикарными генерациями и слухами
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10
This media is not supported in your browser
VIEW IN TELEGRAM
Google представил ObjectDrop - реалистичное удаление объектов с учетом законов реального мира.

📝 Paper: https://huggingface.co/papers/2403.18818

#ai #photo

—————————
Мысли Рвачева
—————————
🔥5
https://www.ai21.com/blog/announcing-jamba

Вышла первая большая языковая модель — гибрид Mamba и Трансформер

Детали:
- MoE with 52B parameters.
- Active parameters: 12B.
- 256K Context length.
51
Forwarded from Dendi Math&AI (Denis Dimitrov)
🥳 Kandinsky 3.1 🥳

Вчера прошёл ровно год с момента релиза модели Kandinsky 2.1 — именно эта модель принесла известность нашей исследовательской группе Sber AI Research и дала толчок развитию всей линейки моделей Kandinsky.

В честь этой даты мы представили модель Kandinsky 3.1 — идейное продолжение модели Kandinsky 3.0, которую мы улучшили и обогатили набором различных полезных функций и режимов. Все они предоставляют пользователям больше возможностей полноценно использовать всю силу нашей новой модели. Это:

💡значительное ускорение модели, которое было достигнуто за счёт дистилляции по числу шагов диффузии (версия Kandinsky 3.0 Flash);
💡улучшение промпта с помощью языковой модели (Mistral-7B);
💡 IP-Adapter, который позволяет дополнительно (помимо текста) обуславливаться на изображение; за счёт этого удалось вернуть режимы смешивания изображений, изображения и текста, которые были в версиях Kandinsky 2.X, но работали там за счёт наличия в этих моделях специального блока image prior;
💡ControlNet — механика, реализующая способы дополнительного контроля за генерацией на основе canny edges, depth maps и т. д.;
💡Inpainting — модификация основной модели, решающая задачу дорисования по тексту недостающих частей изображения (так, в новой версии значительно улучшилась работа с отдельными объектами разных размеров);
💡SuperRes — специальная диффузионная модель, повышающая разрешение изображения (так, в Kandinsky 3.1 теперь можно генерировать 4K изображения).

Полезные ссылки:
👉 Хабр
👉 Project Page
👉 GitHub

Пока что Kandinsky 3.1 доступен для ограниченного круга пользователей. Но в самое ближайшее время все смогут оценить новую версию в официальном боте Kandinsky, на сайте fusionbrain.ai и rudalle.ru (обязательно напишу об этом моменте отдельно).

@dendi_math_ai
👍75😎4🔥2
Diffusion Models GuideBook

У меня появилось желание собрать всё знания, которые помогут разобраться с диффузионными моделями и найти себя в них. Поэтому, вот и пост 😎

❗️База, чтобы понять что к чему

- https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
— скинуть, кому-то чтобы понять, что такое диффузии. Не слишком много подробностей, но уловить суть позволяет.

- https://goyalpramod.github.io/blogs/demysitifying_diffusion_models — более подробный блог с введением и в различные модификации моделей

- https://archive.is/gpfgl — более глубокое погружение на 60 минут, с очень подробным выводом диффузии и куча пояснений, откуда берётся каждая компонента, если вы прям хотите разобраться в нюансах.

- https://www.youtube.com/watch?v=1d4r19GEVos — подробный обзор диффузии и её разнообразных применений в различных с CVPR — поможет понять, где можно применять диффузии.

- https://www.youtube.com/watch?v=DsEDMjdxOv4 — текущее состояние диффузионных моделей с разным анализом.

📖 Для любителей прям в глубины и готовых изучить теорию генеративных моделей

- https://www.youtube.com/watch?v=yUnIzzNiyho&list=PL2UML_KCiC0UPzjW9BjO-
IW6dqliu9O4B&index=13


- https://deepgenerativemodels.github.io/syllabus.html
— два курса по генеративным моделям, которые стоит посмотреть, чтобы понять, а откуда берутся генеративные модели и что с ними можно делать. В часте курса есть лекции про диффузии, их тоже рекомендую посмотреть.

- https://github.com/r-isachenko/2023-DGM-MIPT-course — на русском языке лучший курс по генеративным моделям от преподавателя AI Masters/MIPT Романа Исаченко. Сам проходил 👍

🤔 Зачем вы полезли в диффузии или я хочу разобраться в них серьёзно

- https://github.com/diff-usion/Awesome-Diffusion-Models — чтобы во всем самому разобраться, потому что вы "Big boy". Отличный набор постов и туториалов, из которых вы можете выбрать подходящий

- https://github.com/wangkai930418/awesome-diffusion-categorized
— актуальная штука по диффузиям, увидев столько секций и статей я словил FOMO, потому что реально много статей, которые очень хорошо покрывают все темы

- https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy — если вы гик, которому важно понимать каждую деталь и структуру в диффузиям, то это вам прочитать.

🚀 Если вам это мало
и хотите самый новых и потенциально более крутых вещей

Различные обобщения диффузионных, которые постепенно начинают приходить в нашу ML жизнь:

- Flow matching — обобщение диффузионных моделей, которое позволяет отображать из любого распределения в любое. (Диффузии отображают только из нормального в реальное)
- Stochastic Interpolants — объединение flow-based и diffusion-based моделей
- Bridge matching — стохастическое обобщение задачи Optimal Transport

Блоги
- sander.ai — оригинальный взгляд на диффузии от исследователя из DeepMind
- yang-song.net — практически создатель диффузии и много всего для них

❗️Сохраняйте к себе и пересылайте друзьям, чтобы быть в этой теме. Пишите в комментариях ваши замечания и идеи, чем можно дополнить обзор

P.S. Особая благодарность @Magistrkoljan за помощь с самыми современными методами диффузий
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥149👍2
Forwarded from Concise Research (Sergey Kastryulin)
Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models

Несмотря на отличное среднее качество генераций Stable Diffusion (SD), у этой модели были замечены сложности с генерацией изображений с яркостью, сильно отличающейся от средней. Не понятно насколько это распространенная проблема, но утверждается, что моделям бывает сложно сделать очень контрастную картинку, имеющую чисто белый/чёрный фон и яркие цветовые переходы.

Ранее это объясняли проблемами в реализациях расписания шума, оставляющих немного сигнала в точке Т. Утверждалось, что усреднение яркости происходит из-за того что модель всегда оставляет, а потом стартует с некого “среднего сигнала” и потому всегда приходит в “усредненные картинки”.

В этой работе авторы заходят с точки зрения проблем с предсказаниями шума в точках 0 и Т. Утверждается, что в обеих точках возникает сингулярность, не позволяющая сделать осмысленное предсказание. Действительно, например в точке Т наш сигнал представляет собой x ~ N(0, 1) и не понятно как предсказать какой шум нужно вычесть из шума чтобы получить не шум 💀

Авторы предлагают рассматривать первый шаг начала семплирования (точку Т) как особый случай. Они показывают, что в случае условной генерации можно (и нужно) отдельно выучить предсказание оценки на х_0 при условии кондишена (например, промта), которую дальше вставлять в любой процесс семплирования.

Итого получаем алгоритм:
1. Учим диффузию как обычно (на предсказание шума) либо берём предобученную;
2. Отдельно учим модель-добавку для предсказания оценки на х_0 на первом шаге семплирования;
3. Во время семплирования делаем первый шаг моделькой из п.2, а дальше как обычно.

В экспериментах на SD 1.5 и 2.0 качественно и количественно (FID) показывают рост качества и увеличение контраста. Код выложен.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31
Forwarded from ODS Events
Сап чат!

Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉

В этом году мы чутка нарастили и программу и географию и число локаций 👀
12 оффлайн площадок уже открыты — можно регистрироваться 🔥

24 мая (пт): Москва, Pre-Party Феста с Яндексом
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel digital в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!

На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы 🤗

Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста

Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51
Всем привет! 😎

Прошёл год с моего первого доклада в Альфа-Банке, и я рад поделиться тем, что буду снова выступать на ODS DataFest!

На этот раз расскажу про свои наработки в теме "Генеративные аугментации". Этой темой я занимаюсь последние 6 месяцев и прошел путь:

- от "генеративные модели вообще ничего не могут — этот скам нужно запретить 🥴"

- до "как они могут давать реальный буст по качеству 🚀".

Доклад must have для всех, кто занимается Computer Vision. Если вы занимаетесь другими сферами, то будут полезны инсайты о том, как работать с реальными и синтетическими данными.

В общем, приходите 2 июня в Яндекс, чтобы послушать доклад и пообщаться лично!

До встречи! 👋
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1721
Вот один из секретов успеха
Forwarded from Igrek.log
⚡️Сегодня мы выложили наш фреймворк для обработки и фильтрации изображений и видео

DPF - это наш внутренний фреймворк, с помощью которого мы обрабатывали и чистили датасет для обучения моделей Kandinsky и Kandinsky Video. Репозиторий содержит фильтры для видео, изображений, различных комбинаций этих модальностей, а также удобный интерфейс к ним. Надеемся, что открытие кода ускорит развитие библиотеки и даст возможность ресерчам сосредоточиться на ресерче, а не на чистке данных ❤️‍🔥

А ещё мы написали статью на habr, в которой подробно рассказали про то, как собирали датасет для обучения Kandinsky 3.0 & 3.1 и Kandinsky Video. В ней также рассказали про DPF и процесс обработки датасетов у нас в Sber AI.

💻 github DPF
📖 Статья на Хабр
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11
GenerativeAugmentation.pdf
7.7 MB
Всем привет! Выкладываю вчерашную презентацию по теме "Генеративные аугментации в задачах компьютерного зрения"
9🔥7
😎Всем привет!

Сегодня наконец-то закончил статью про аугментации (об этом расскажу позже, но название точно топ 😅, легко продаётся :) ). В ближайшее время вернусь к написанию постов. А чтобы заполнить паузу хочу поделиться с вами крутым видео про детекцию мелких объектов.

🤔 Мну уже надоели сложности детекции во время написания статьи, и чтобы разобраться, важен прикладной опыт и реальные кейсы.
А из видео я впервые узнал о методе SAHI (Slicing Aided Hyper Inference). Этот метод помогает лучше находить мелкие объекты на изображениях, засчёт sliced inference, когда моделька проходится по картинке небольшим окошком и детектирует все объекты в нём. В видео ещё много полезного про обучение, аугментации и выбор моделей — всё это точно пригодится, если вы занимаетесь компьютерным зрением и поможет забустить метрики, что мне бы сейчас точно не помешало, потому что метрики выбивать целое искусство!

😎Очень советую посмотреть! А я пошел восстановливаться 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥102
Forwarded from nkbtech
Привет, друзья! 🌟

🧐 Вы когда-нибудь задумывались, как современные технологии справляются с такой сложной задачей, как детекция опасных летательных аппаратов в зоне аэропортов? 🛩️

🏆 В этом видео мы разберем задачу Small Object Detection (SOD) на примере обнаружения дронов, и узнаем, как команда «Физики и Лирики» из НКБТех победила на международном хакатоне «Лидеры Цифровой Трансформации 2024»!

🔬 Мы разработали модель для детекции летательных аппаратов, которая продемонстрировала впечатляющий прирост метрики mAP с 0.78 до 0.93. Команда использовала синтетические данные с помощью фреймворка собственной методики, автоматическую доразметку данных для улучшения результатов, а также кропотливый анализ сторонних датасетов. Мы увидим, как эти методы помогли преодолеть трудности работы с данными и детекцией мелких объектов.

📌 Не пропустите это увлекательное обсуждение и узнайте, как такие инновационные решения могут быть полезны для ваших проектов!

📹 Посмотреть ролик можно по ссылке.

nkbtech.ru

#readingclub #detection #yolo #realtime #drone
🔥82
Решение задач в ML и не только

Наконец-то вышла запись моего рассказа о генеративных аугментациях. Это был долгий проект, в процессе которого я сталкивался с проблемами, для которых нет простых решений в интернете или готовых статей — приходилось самостоятельно во всё вникать 🙈. Мне кажется, это тот опыт, которым важно поделиться, чтобы ваш путь к решению таких задач стал на пару шагов короче.

Основная проблема, с которой я сталкивался

Главная трудность, с которой я постоянно сталкивался, — это непонимание того, что конкретно нужно делать. Вроде бы есть представление о конечном результате, но как выстроить к нему путь? Здесь я часто "застревал": ничего не получалось, ничего не работало, полное отсутствие идей. Что делать в таких ситуациях? Для себя я нашел несколько полезных приемов:

1️⃣ Спросить совета у других

Хотя у меня нет стабильной привычки обращаться за помощью, я очень ценю этот подход. Приведу пример: когда я только начинал работать с генеративными аугментациями, как и многие новички, я просто изучал все возможные статьи, не понимая, что из этого реально работает. В такой ситуации необходим опытный человек, который сможет направить вас в нужную сторону. Для меня это была созвон со стартапом KopiKat. За полчаса я осознал, что работает, а что нет, что стоит попробовать, а от чего лучше отказаться. Вот за это я ценю советы, они дают понимание, на создание которого могут уйти недели/месяцы/годы.

2️⃣ Отойти на пару дней и вернуться к задаче позже

Часто, когда мы сосредоточены на одной и той же задаче, теряется способность видеть общую картину — это как известная фраза: "Если у вас в руках молоток, всё вокруг кажется гвоздями". Из-за узкого фокуса мы не замечаем альтернативных решений или даже собственных ошибок. В таких случаях помогает отвлечься от задачи на несколько дней и потом вернуться к ней с "свежими" глазами. Почему это работает? Во время отдыха ваш мозг продолжает бессознательно обрабатывать информацию, что позволяет вам взглянуть на проблему с новой стороны. Для меня это открылось при чтении книги "Learning How to Learn" и на личном опыте — время проведенное за занятиями абсолютно другими делами возвращало меня к задаче со свежей головой!

3️⃣ Попробовать что-то необычное

Когда все идеи исчерпаны, иногда стоит пойти по неожиданному пути. Почему бы не попробовать соединить разные подходы? Может быть, комбинация LLM и RL сработает? Никто не знает заранее. Да, эксперименты могут оказаться неудачными, слишком сложными или неэффективными. Но каждая попытка обогащает ваш опыт. До работы с аугментациями я занимался дистилляцией данных — проект, где большинство экспериментов оказались неудачными. Можно было бы назвать это провалом, но именно тогда я осознал, насколько важны данные при обучении моделей. Неважно, какую модель вы обучаете — если данные хороши, всё сработает. Этот вывод стал основой для поиска новых методов улучшения данных, о которых я позже и сделал доклад по аугментациям.

Вместо заключения
Если у вас истории преодоления сложностей или прикольные приёмы про которые я не упомянул, напишите про них в комментарии. Мне интересно будет узнать, как каждый справляется с такими сложностями!
🔥21👍3🗿3😎2
Forwarded from A$TEX
Всех приветствую! Рады поделиться v2 checkpoint IP-адаптера для модели FLUX-dev! (кстати, можете попробовать и другие версии)

Скачать веса можно тут: huggingface
Воркфлоу тут: ip_adapter_workflow.json
Перед использованием обязательно обновите ноды: x-flux-comfyui.git
👍6
2025/10/09 01:51:22
Back to Top
HTML Embed Code: