Machine learning Interview@machinelearning_interview P.2185

MACHINELEARNING_INTERVIEW Telegram 2185

Machine learning Interview

⚡️ Фотореализм в диффузионных моделях за 10 минут? Новый метод от Hunyuan - SRPO (Semantic Relative Preference Optimization) показывает, что это реально.

SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле.

Как это работает:
- Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью.
- Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения.
- Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO).
- Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных.
- Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений.

Подробнее:

🟢

Проект: https://tencent.github.io/srpo-project-page/

🟢

Статья: https://arxiv.org/abs/2509.06942

🟢

Модель: https://huggingface.co/tencent/SRPO

🟢

Код: https://github.com/Tencent-Hunyuan/SRPO

@machinelearning_interview

#SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥7👍4🥱2

www.tgoop.com/machinelearning_interview/2187

4.52K viewsSep 16 at 09:40

tgoop.com/machinelearning_interview/2185

Create: 2025-09-16
Last Update: 2025-10-13 23:17:44

⚡️ Фотореализм в диффузионных моделях за 10 минут? Новый метод от Hunyuan - SRPO (Semantic Relative Preference Optimization) показывает, что это реально.

SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле.

Как это работает:
- Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью.
- Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения.
- Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO).
- Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных.
- Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений.

Подробнее:
🟢Проект: https://tencent.github.io/srpo-project-page/
🟢Статья: https://arxiv.org/abs/2509.06942
🟢Модель: https://huggingface.co/tencent/SRPO
🟢Код: https://github.com/Tencent-Hunyuan/SRPO

@machinelearning_interview

#SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage

BY Machine learning Interview

Share with your friend now:
tgoop.com/machinelearning_interview/2185

Open in Telegram

Telegram News

Date: 2025-10-13|

Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. ‘Ban’ on Telegram Select “New Channel”
from us

Telegram Machine learning Interview
FROM American