Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/neural_prosecco/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Пресидский залив (ex Надя пробует)@neural_prosecco P.838
NEURAL_PROSECCO Telegram 838
😧 Virtual Try-Off: как нейросети научились не только «одевать», но и «раздевать»? 😧
Как человек, увлечённый развитием Fashion Tech и применением компьютерного зрения в индустрии моды, я внимательно слежу за новыми направлениями и подходами. Всем уже привычна задача Virtual Try-On (VTON), когда нейросети (диффузионные модели в данный момент) виртуально примеряют одежду на изображениях людей. Однако сейчас набирает популярность противоположное направление — Virtual Try-Off (VTOFF), задача извлечения одежды с моделей и получения её канонического изображения. Это не просто новая фишка, а перспективная задача с серьёзными техническими вызовами: в отличие от традиционного VTON, где модель цифровым образом «одевается», VTOFF стремится выделить и «снять» одежду, сохранив при этом её точную форму, текстуру и даже сложные паттерны ткани.

Кстати, на идущей прямо сейчас конференции CVPR-2025 были приняты пейперы, посвящённые именно Virtual Try-Off.

Зачем индустрии моды такой подход?
1. Создание идеального каталога — возможность быстро получить идеализированное изображение одежды, свободное от складок, позы и особенностей модели.
2. Точная визуализация и кастомизация — одежда, полученная через VTOFF, может быть легко переиспользована и виртуально адаптирована к новым условиям (поза, модель, фон).
3. Повышение эффективности производства контента — сокращение затрат на новые фотосессии и обработку изображений.

Вот пара интересных подхода к задаче Virtual Try-Off, которые стоит изучить уже сейчас:

TryOffDiff: Virtual Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models
Основная цель: получить оригинальное изображение одежды (без тела, позы и искажений) из одной фотографии одетого человека.
Ключевые идеи:
Визуальные признаки вместо текста: вместо текстовых промтов, как в классическом Stable Diffusion, TryOffDiff использует визуальные эмбеддинги, извлечённые с помощью SigLIP image encoder.
Адаптер: обучаемый модуль (Transformer + Linear + LayerNorm), который преобразует SigLIP-эмбеддинги в формат, совместимый с cross-attention слоями U-Net (77×768, как текст в SD).
Минимум обучения: обучаются только адаптер и attention-слои. Все остальные компоненты заморожены: VAE, U-Net, SigLIP.

TryOffAnyone: Tiled Cloth Generation from a Dressed Person
Основная цель: восстановить канонический вид одежды с фото одетого человека, представив её в виде тайлов (фрагментов), пригодных для переиспользования и редактирования.
Ключевые идеи:
Latent diffusion: архитектура построена вокруг латентной диффузионной модели с VAE-энкодером/декодером и денойзингом в латентном пространстве (по базе).
Множественные входы: модель получает изображение одетого человека, маску одежды и опционально изображение референса в той же одежде, но другой позе. Это помогает точнее реконструировать форму и текстуру.
Transformer-блок в U-Net: в середине диффузионной модели встроен обучаемый Transformer, содержащий self-attention и cross-attention для захвата контекста из разных источников (ну тут тоже весьма обычно).
Tile-based генерация: одежда восстанавливается в виде набора независимых латентных тайлов, что позволяет локально контролировать генерацию и уменьшить зависимость от глобальной позы. Такая декомпозиция упрощает переиспользование и адаптацию одежды к новым условиям (другая поза, фон, модель) и хорошо масштабируется в пайплайнах, ориентированных на кастомизацию и цифровой гардероб.
Frozen backbone: как и в TryOffDiff, VAE и часть U-Net заморожены, обучение фокусируется на attention и Transformer-блоках.

Оба подхода — TryOffDiff и TryOffAnyone — подчёркивают, что Virtual Try-Off нельзя рассматривать как простое дополнение к VTON. Это отдельный класс задач, требующий других архитектурных решений, способных восстанавливать геометрию, структуру и текстильные особенности одежды в отрыве от тела, позы и сцены.

@sonya_aesthetics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥145👍1👏1



tgoop.com/neural_prosecco/838
Create:
Last Update:

😧 Virtual Try-Off: как нейросети научились не только «одевать», но и «раздевать»? 😧
Как человек, увлечённый развитием Fashion Tech и применением компьютерного зрения в индустрии моды, я внимательно слежу за новыми направлениями и подходами. Всем уже привычна задача Virtual Try-On (VTON), когда нейросети (диффузионные модели в данный момент) виртуально примеряют одежду на изображениях людей. Однако сейчас набирает популярность противоположное направление — Virtual Try-Off (VTOFF), задача извлечения одежды с моделей и получения её канонического изображения. Это не просто новая фишка, а перспективная задача с серьёзными техническими вызовами: в отличие от традиционного VTON, где модель цифровым образом «одевается», VTOFF стремится выделить и «снять» одежду, сохранив при этом её точную форму, текстуру и даже сложные паттерны ткани.

Кстати, на идущей прямо сейчас конференции CVPR-2025 были приняты пейперы, посвящённые именно Virtual Try-Off.

Зачем индустрии моды такой подход?
1. Создание идеального каталога — возможность быстро получить идеализированное изображение одежды, свободное от складок, позы и особенностей модели.
2. Точная визуализация и кастомизация — одежда, полученная через VTOFF, может быть легко переиспользована и виртуально адаптирована к новым условиям (поза, модель, фон).
3. Повышение эффективности производства контента — сокращение затрат на новые фотосессии и обработку изображений.

Вот пара интересных подхода к задаче Virtual Try-Off, которые стоит изучить уже сейчас:

TryOffDiff: Virtual Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models
Основная цель: получить оригинальное изображение одежды (без тела, позы и искажений) из одной фотографии одетого человека.
Ключевые идеи:
Визуальные признаки вместо текста: вместо текстовых промтов, как в классическом Stable Diffusion, TryOffDiff использует визуальные эмбеддинги, извлечённые с помощью SigLIP image encoder.
Адаптер: обучаемый модуль (Transformer + Linear + LayerNorm), который преобразует SigLIP-эмбеддинги в формат, совместимый с cross-attention слоями U-Net (77×768, как текст в SD).
Минимум обучения: обучаются только адаптер и attention-слои. Все остальные компоненты заморожены: VAE, U-Net, SigLIP.

TryOffAnyone: Tiled Cloth Generation from a Dressed Person
Основная цель: восстановить канонический вид одежды с фото одетого человека, представив её в виде тайлов (фрагментов), пригодных для переиспользования и редактирования.
Ключевые идеи:
Latent diffusion: архитектура построена вокруг латентной диффузионной модели с VAE-энкодером/декодером и денойзингом в латентном пространстве (по базе).
Множественные входы: модель получает изображение одетого человека, маску одежды и опционально изображение референса в той же одежде, но другой позе. Это помогает точнее реконструировать форму и текстуру.
Transformer-блок в U-Net: в середине диффузионной модели встроен обучаемый Transformer, содержащий self-attention и cross-attention для захвата контекста из разных источников (ну тут тоже весьма обычно).
Tile-based генерация: одежда восстанавливается в виде набора независимых латентных тайлов, что позволяет локально контролировать генерацию и уменьшить зависимость от глобальной позы. Такая декомпозиция упрощает переиспользование и адаптацию одежды к новым условиям (другая поза, фон, модель) и хорошо масштабируется в пайплайнах, ориентированных на кастомизацию и цифровой гардероб.
Frozen backbone: как и в TryOffDiff, VAE и часть U-Net заморожены, обучение фокусируется на attention и Transformer-блоках.

Оба подхода — TryOffDiff и TryOffAnyone — подчёркивают, что Virtual Try-Off нельзя рассматривать как простое дополнение к VTON. Это отдельный класс задач, требующий других архитектурных решений, способных восстанавливать геометрию, структуру и текстильные особенности одежды в отрыве от тела, позы и сцены.

@sonya_aesthetics

BY Пресидский залив (ex Надя пробует)




Share with your friend now:
tgoop.com/neural_prosecco/838

View MORE
Open in Telegram


Telegram News

Date: |

The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. Concise Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu.
from us


Telegram Пресидский залив (ex Надя пробует)
FROM American