Data Blog@jdata_blog P.402

Data Blog

🐥 Привет друзья!

Задача «сделать серию постов про архитектурный bias» оказалась с плотной звездочкой. Но кто мы такие, чтобы звездочек бояться? — подумала я, и всё-таки продолжаю эту идею...

Так что сегодня про диффузионные модели.

TLDR: У них проблема не сколько в архитектуре, сколько в том числе в задаче. Во-первых, мы хотим сгенерировать новые данные, на основе обучающих. Во-вторых, делаем это путем последовательного расшумления.

Напоминание:
Диффузионные модели – это класс генеративных моделей, которые учатся пошагово улучшать случайный шум до осмысленных данных путем расшумления.

Где архитектура и процесс генерации значимо влияют на искажения в результирующих данных?

Исследований много. Как минимум — потому что генеративные модели массово используются для создания контента, который, в свою очередь, по определению оказывает влияние на людей.

Так, для диффузионных моделей выделены следующие проблемы:

1. Локальный характер генерации — то есть модели верно воспроизводят отдельные символы, но плохо их собирают. Где это видно: лишние пальцы и нечитаемый текст — детали корректны, а их количество или порядок – нет.

На поверхности — это наследованное bias’a базовой сети — поскольку чаще всего диффузионные модели используют в качестве денойзера сверточный U-Net, они унаследуют и bias CNN: внимание к текстурам, локальным особенностям.

Но! В работе показано, что такой результат справедлив для разных архитектур денойзанга — включая MLP и трансформеры (выше мы с вами видели, что они способны моделировать глобальные зависимости). Это позволяет предположить, что локальность (наряду с архитектурой), также связанна с воспроизведением процесса диффузии.

2. Воспроизведение перекосов — диффузионный генератор тяготеет к “усредненному” по распределению результату, если его явно не скорректировать. Иначе говоря, если в обучающем наборе какой-то признак встречается чаще, модель будет смещена в сторону генерации этих более частых признаков.

Это дает в том числе воспроизведение социальных сдвигов. Так, например, генерации, женщины ( =( ) занижены во всех “высокостатусных” профессиях
“Doctor” → почти всегда мужчина, “nurse” → почти всегда женщина. Почитать какая модель более стереотипна — здесь (но не забудьте посмотреть раздел Limitations). Других статей, если что, тоже много (1, 2, а тут просто оформили красиво)

Что с этим делают?

Существуют Guidance-механизмы — это способ “помочь” модели удерживать нужные свойства генерации. Например, classifier guidance, sliding window guidance, Invariant Guidance. Идея — перенаправить bias туда, куда нам нужно — например, к большей разнообразности, или к более корректной структуре.

Но здесь появляется новая дилемма: целостность — разнообразие.
Слишком сильный guidance — и модель станет “шаблонной”. Слишком слабый — и появятся бессмысленные сцены, перекосы и повторения.

Соединяем с XAI:

Для генеративных моделей, интерпретируемость — это про в том числе анализ bias’ов. Например, если генеративная модель выдаёт мужчину, даже когда вы не уточняли пол, — никакой SHAP, attention rollout или текстовое объяснение не скажет вам почему это — просто социальный сдвиг.

При этом, концепцию сдвигов модели могут "понимать" (пример под рукой для языковых моделей — добавление просьбы "Please make sure that your answer is objective and not based on stereotypes” — влияет на ответ (но не показано в CoT).

Вместо вывода:

Задача объяснений для генерации, как и мультимодальная задача объяснения— челлендж. С точки зрения практики, почти нет хороших how to, так что я очень задумалась потратить это лето на вторую часть XAI курса, с постановкой задачи собрать, воспроизвести и объяснить XAI для мультимодальных и генеративных задач.

Так что может что-то ближе к концу лета будет)

🐣 Но пока я в режиме жизненного откисания, и желаю вам баланса между работой и жизнью,

Всё ещё ваш,
Дата-автор!

❤10🔥1

www.tgoop.com/jdata_blog/402

1.4K viewsMay 18 at 14:18

tgoop.com/jdata_blog/402

Create: 2025-05-18
Last Update: 2025-10-13 14:33:17

BY Data Blog

Share with your friend now:
tgoop.com/jdata_blog/402

Telegram News

🐥 Привет друзья!