Telegram Web
Forwarded from Machinelearning
🔥 Text‑to‑FILM становится реальностью!

SkyReels‑V2 - опенсорс генератор видео из текста, который не только соперничает с лучшими закрытыми решениями, но и предлагает уникальное преимущество — теоретически неограниченную длину генераций.

✔️ Что умеет SkyReels V2:

- Story Generation: полный конвейер от генерации текста до последовательного сюжета для видео.
- Image‑to‑Video
- Camera Director: управление виртуальной камерой — смена углов, зум, трекинг.
- Elements‑to‑Video: генерация отдельных объектов или эффектов, которые затем интегрируются в общий видеоряд.

🌟 Режимы инференса: поддерживаются как синхронный (full‑sequence diffusion), так и асинхронный (Diffusion Forcing) режимы для гибкой работы на разных GPU-конфигурациях

На бенчмарках SkyReels V2 лидирует среди открытых моделей на VBench с 83.9%, оставляя позади Wan2.1, HunyuanVideo и OpenSora 2.0.


Попробовать
Github
Technical Report
Hugging Face
ModelScope


#AI #TextToFilm #VideoGeneration #SkyReelsV2 #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ Magi-1: модель генерации полнометражного видео с 24B параметров.

Sand AI выпустила Magi-1, первую в истории Text-to-Video модель с 24 млрд. параметров, разработанную специально для создания видео. Magi-1 опубликована в открытом доступе и позволяет создавать высококачественные полнометражные видеоролики с исключительной реалистичностью, плавностью и тонким контролем над видеосценами.
Черрипики и результаты тестов в популярных бенчмарках превосходны. Попробовать можно в демо-спейсе.
sand.ai

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Только Machine learning, только хардкор

Авторы курса Hard ML в онлайн-школе karpov.courses не оставляют места для иллюзий: это не программа с нуля, а серьезный level up для тех, кто уже готов работать над собой.

→ Максимально глубокое погружение в решение реальных задач
→ Продвинутые методы работы с данными, мониторинга и оценки эффективности
→ Шесть отдельных блоков, чтобы вы могли выбрать то, что наиболее интересно

Если вы уже в ML, здесь вас научат решать самые нестандартные задачи и строить ML-сервисы и помогут подготовить почву для повышения на работе и новых офферов.

🎁 Кстати, до конца апреля можно получить три блока по цене двух: выберите и оплатите два и более и получите еще один в подарок.

Реклама. ООО «Карпов Курсы», ИНН: 7811764627, erid: 2VtzqxP7n8q
Forwarded from Machinelearning
🌟 CoMotion: одновременное отслеживание движения нескольких людей в видео.

CoMotion - метод, разработанный Apple для одновременного отслеживания 3D-движений нескольких людей, который принципиально отличается от покадрового обнаружения и классических способов трекинга.

CoMotion использует рекуррентную модель, которая поддерживает набор отслеживаемых 3D-поз и обновляет их при поступлении нового кадра, непосредственно анализируя пиксели изображения. Способность использовать визуальные подсказки вкупе с парадигмой tracking by attention позволяет CoMotion эффективно отслеживать перекрывающихся и временно исчезающих из виду людей.

Архитектура CoMotion состоит из модуля обнаружения (он определяет кандидатов на новые треки) и модуля обновления поз (корректирует позы существующих треков). Оба модуля работают с признаками изображения, извлеченными с помощью стандартной модели ConvNextV2. Модуль обновления поз использует cross-attention к признакам изображения для каждого трека, опираясь на предыдущие состояния, и применяет GRU для рекуррентного обновления скрытых состояний.

Прогнозирование 3D-поз выполняется путем параметризации модели SMPL, а управление треками основано на эвристических правилах, использующих модифицированную метрику Object Keypoint Similarity (OKS).

Модель CoMotion обучается в 3 этапа. Первый - предварительное обучение энкодера и модуля обнаружения на больших наборах данных отдельных изображений (псевдо-размеченные InstaVariety, COCO, MPII и синтетический BEDLAM). Второй - обучение модуля обновления поз на коротких видео из BEDLAM, WHAC-A-MOLE и размеченных PoseTrack и DanceTrack. На финальном этапе обучение модуля обновления поз продолжается на более длинных видеопоследовательностях.

Экспериментальная оценка CoMotion проводилась на стандартных бенчмарках для отслеживания и оценки поз. На PoseTrack21 CoMotion показал значительное улучшение метрик (MOTA на 14% и IDF1 на 12%). При этом CoMotion работает на порядок быстрее, чем сопоставимая система 4DHumans.

▶️Локальный инференс:

# Clone the repo
git clone https://github.com/apple/ml-comotion.git
cd ml-comotion

# Create a conda env
conda create -n comotion -y python=3.10
conda activate comotion

# Install dependencies
pip install -e

# Download models
bash get_pretrained_models.sh

# Run CoMotion
python demo.py -i path/to/video.mp4 -o results/


📌Лицензирование: Apple License.


🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3DTracking #CoMotion #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Dia: открытая ИИ-модель для генерации речи с контролем над интонацией и невербальными элементами.

Два корейских студента без глубокого опыта в ИИ разработали Dia — модель для создания подкаст-диалогов, способную конкурировать с Google NotebookLM. Используя TPU от Google, они обучили модель на 1,6 млрд. параметров, которая позволяет настраивать тон голоса, добавлять паузы, смех и клонировать голоса.

Dia доступна на Hugging Face и GitHub, для запуска на ПК нужен GPU от 10 ГБ VRAM. В отличие от аналогов, Dia даёт пользователям контроль над сценарием: можно прописать реплики, выбрать «характер» говорящего или загрузить образец для клонирования. Короткое тестирование, проведенное редакцией TechCrunch показало, что Dia справляется с диалогами на любые темы, а качество голосов не уступает коммерческим решениям.
techcrunch.com

🟡 Hugging Face
🟡GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 NarratoAI — инструмент, который использует LLM для генерации сценариев, автоматического редактирования видео, озвучивания и создания субтитров!

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ Adobe запускает публичную бета-версию механизма маркировки сгенерированных изображений.

Adobe запустила публичную бета-версию веб-приложения Content Authenticity — бесплатного инструмента, который помогает закрепить за контентом «цифровой паспорт» (Content Credentials). С его помощью можно привязать к файлам идентификатор, ссылки на соцсети и даже запретить обучение ИИ на своих работах.

Технология объединяет криптографические метаданные, цифровые отпечатки и невидимые водяные знаки, которые сохраняются даже после скриншотов. Проверить данные можно через Chrome-расширение или Inspect-сервис.

Adobe ведет переговоры с Leica, Nikon, Samsung и OpenAI, чтобы встроить Content Credentials в камеры, смартфоны и ИИ-инструменты. Для авторов это не только защита, но и возможность повысить доверие аудитории. Пользователи, в свою очередь, получат прозрачность: «паспорт» покажет, кто и как создал контент, что особенно актуально в эпоху deepfake-угроз.
blog.adobe.com

✔️ Tavus представила липсинк-модель Hummingbird-0.

Tavus, разработчик в области ИИ-видео, запустила в превью модель Hummingbird-0 — модель для синхронизации движений губ без предварительного обучения. Теперь достаточно одного видео и аудиодорожки, чтобы «оживить» речь человека, сохранив его мимику и качество изображения.

Hummingbird-0 построен на компонентах флагманской модели Phoenix-3 и превосходит аналоги по точности синхронизации (LSE-D — 6,74) и сохранению идентичности (Arcface — 0,84). Интеграция с генераторами видео (Veo или Sora) позволяет добавлять голос даже к «немым» роликам, превращая их в полноценные истории. Модель доступна на платформах Tavus и FAL — попробовать можно уже сегодня.
tavus.io

✔️ Классические игры стали новым бенчмарком для ИИ.

Game Arena представила исследование, где платформеры и игры-головоломки используются для тестирования фундаментальных моделей. Оказалось, что Claude 3.7 или GPT-4o справляются хуже людей в задачах, требующих быстрой реакции и пространственного мышления - в Tetris модели часто ошибались при выборе блоков, а в Sokoban не могли пройти уровни, которые человек решает за минуты.

Для экспериментов игры адаптировали: добавили модули преобразования изображений в текст, «заморозку» процесса и память для долгосрочного планирования. Лучшие результаты показали модели с усиленным логическим мышлением, но разрыв с человеческим уровнем все еще значителен.
Проект открыт для разработчиков — код доступен на GitHub.
lmgame.org

✔️ Google DeepMind запустила модель генерации музыки Lyria 2 в обновленном сервисе Music AI Sandbox.

Google DeepMind представила обновление платформы Music AI Sandbox, добавив инструменты для генерации и редактирования музыки на базе ИИ. В основе — модель Lyria 2, создающая высококачественные треки с детализацией жанровых нюансов, и Lyria RealTime, позволяющая экспериментировать со звуком в реальном времени.

Новые функции включают генерацию инструментальных партий по текстовым описаниям, расширение композиций и редактирование стиля с помощью текстовых подсказок. Музыканты могут менять темп, тональность или полностью переосмыслить трек. Платформа, разработанная при участии артистов, теперь доступна в США — заявки принимаются через запись в вейтлист.
deepmind.google

✔️ YouTube тестирует AI Overviews в поиске.

YouTube начал ограниченное тестирование AI Overviews — "карусели" с ключевыми фрагментами видео в результатах поиска. Система анализирует ролики по запросам (например, «лучшие беспроводные наушники» или «музеи Сан-Франциско») и выводит «выжимку» из самых информативных моментов. Пока функция доступна лишь части пользователей YouTube Premium в США и работает на английском языке.

Тестовый период продлится недолго, а его итоги определят судьбу AI Overviews. Пользователи смогут оценивать функцию через лайки/дизлайки, а YouTube — собрать обратную связь для доработки функции.
searchengineland.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📚 IPEX-LLM — библиотека для оптимизации больших языковых моделей под Intel-железо. Проект позволяет развернуть более 70 моделей (включая Llama 3, Mistral, Qwen и другие) с поддержкой низкобитных вычислений вплоть до INT4.

Особенно впечатляет возможность запуска через Ollama и llama.cpp без ручной настройки, поддержка Hugging Face, LangChain и vLLM и возможность распределенного вывода на нескольких GPU

Тесты показывают, что даже на скромном Intel Arc A770 можно работать с 32B-моделями в 4-битной квантовке. При этом библиотека сохраняет точность — перплексия Q4_K-версий близка к FP16.

🤖 GitHub

@machinelearning_ru
Forwarded from ML Underhood
Крутые постеры с конференции ICLR 2025

Наши инженеры вовсю изучают постеры на мероприятии и делятся самыми любопытными статьями.

TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

Авторы предлагают хитро дообучить Clip для ускорения поиска по видео. Результаты:

— в 1,5-3 раза снижается количество вычислений для инференса, в зависимости от базового метода;
— качество ранжирования в сером плюсе

Приёмы:

— Используется LoRA для дообучения энкодера.
— Применяется специальная процедура усреднения похожих токенов, как по временной, так и по пространственной размерностям.
— Для улучшения такого усреднения используются дополнительные позишн-эмбеды.
— За счёт этого снижается количество обрабатываемых токенов и возникают более явные зависимости между кадрами по времени.

LeanVec: Searching vectors faster by making them fit

Авторы предлагают решение для ускорения процедуры поиска. Идея очень понятная и, возможно, много где реализована.

Собираем выборку запрос-документ, вычисляем матрицы A и B, преобразующие данные в меньшую размерность.
2. На этапе построения базы вычисляем Bx — получаем базу документов меньшей размерности и строим ANN (quant).
В процессе поиска делаем Aq, на основе которой из графа ищем ближайшие документы, а после уточняем кандидатов на этапе реранкинга по оригинальным векторам.

В статье приводят результаты экспериментов показывающие, что меньшая размерность может быть в 3-4 раза меньше исходной без значимой потери качества поиска. Плюс, полученное преобразование устойчиво к OOD.

Странно, что авторы не сравнили своё решение с подходом, использующимся при обучении многих SOTA-эмбеддингов: Matryoshka Representation Learning. В таком случае в модель уже встроены низкие размерности и не нужно ничего дополнительно обучать. По словам авторов, SOTA-библиотека от Intel, в которую они встроились, всё еще имеет всего 150 звезд на Github, так что теоретически идеи хорошие, а вот использовать ли их на практике — об этом стоит 10 раз подумать и самому оценить.

DeLLMa: Decision Making Under Uncertainty with Large Language Models

Авторы учат LLM принимать решения в условиях неопределённости. Они предлагают ввести лист состояний мира, который можно вывести из контекста и к которому, попарно для каждого state-action выводится функция полезности.

Постеры заметили Кирилл Никоров, Алексей Спасёнов, Александр Воронцов

#YaICLR

ML Underhood
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/05/23 20:39:11
Back to Top
HTML Embed Code: