MACHINELEARNING_INTERVIEW Telegram 2185
⚡️ Фотореализм в диффузионных моделях за 10 минут? Новый метод от Hunyuan - SRPO (Semantic Relative Preference Optimization) показывает, что это реально.

SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле.

Как это работает:
- Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью.
- Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения.
- Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO).
- Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных.
- Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений.

Подробнее:
🟢Проект: https://tencent.github.io/srpo-project-page/
🟢Статья: https://arxiv.org/abs/2509.06942
🟢Модель: https://huggingface.co/tencent/SRPO
🟢Код: https://github.com/Tencent-Hunyuan/SRPO

@machinelearning_interview


#SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥7👍4🥱2



tgoop.com/machinelearning_interview/2185
Create:
Last Update:

⚡️ Фотореализм в диффузионных моделях за 10 минут? Новый метод от Hunyuan - SRPO (Semantic Relative Preference Optimization) показывает, что это реально.

SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле.

Как это работает:
- Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью.
- Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения.
- Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO).
- Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных.
- Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений.

Подробнее:
🟢Проект: https://tencent.github.io/srpo-project-page/
🟢Статья: https://arxiv.org/abs/2509.06942
🟢Модель: https://huggingface.co/tencent/SRPO
🟢Код: https://github.com/Tencent-Hunyuan/SRPO

@machinelearning_interview


#SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage

BY Machine learning Interview







Share with your friend now:
tgoop.com/machinelearning_interview/2185

View MORE
Open in Telegram


Telegram News

Date: |

Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. ‘Ban’ on Telegram Select “New Channel”
from us


Telegram Machine learning Interview
FROM American