Machine learning Interview@machinelearning_interview P.2184

MACHINELEARNING_INTERVIEW Telegram 2184

Machine learning Interview

⚡️ Фотореализм в диффузионных моделях за 10 минут? Новый метод от Hunyuan - SRPO (Semantic Relative Preference Optimization) показывает, что это реально.

SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле.

Как это работает:
- Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью.
- Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения.
- Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO).
- Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных.
- Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений.

Подробнее:

🟢

Проект: https://tencent.github.io/srpo-project-page/

🟢

Статья: https://arxiv.org/abs/2509.06942

🟢

Модель: https://huggingface.co/tencent/SRPO

🟢

Код: https://github.com/Tencent-Hunyuan/SRPO

@machinelearning_interview

#SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥7👍4🥱2

www.tgoop.com/machinelearning_interview/2187

4.52K viewsSep 16 at 09:40

tgoop.com/machinelearning_interview/2184

Create: 2025-09-16
Last Update: 2025-10-13 23:16:30

⚡️ Фотореализм в диффузионных моделях за 10 минут? Новый метод от Hunyuan - SRPO (Semantic Relative Preference Optimization) показывает, что это реально.

SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле.

Как это работает:
- Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью.
- Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения.
- Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO).
- Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных.
- Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений.

Подробнее:
🟢Проект: https://tencent.github.io/srpo-project-page/
🟢Статья: https://arxiv.org/abs/2509.06942
🟢Модель: https://huggingface.co/tencent/SRPO
🟢Код: https://github.com/Tencent-Hunyuan/SRPO

@machinelearning_interview

#SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage

BY Machine learning Interview

Share with your friend now:
tgoop.com/machinelearning_interview/2184

Open in Telegram

Telegram News

Date: 2025-10-13|

Activate up to 20 bots How to create a business channel on Telegram? (Tutorial) Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. bank east asia october 20 kowloon
from us

Telegram Machine learning Interview
FROM American