tgoop.com/machinelearning_ru/2919
Last Update:
🚀 Tencent выпустила HunyuanVideo-Foley — открытую систему, которая умеет автоматически превращать видео и текст в качественный звук (Text-Video-to-Audio, TV2A).
🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.
✨ Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.
📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.
👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley
@data_analysis_ml
BY Машинное обучение RU
Share with your friend now:
tgoop.com/machinelearning_ru/2919