Telegram Web
Forwarded from Machinelearning
🌟 CoMotion: одновременное отслеживание движения нескольких людей в видео.

CoMotion - метод, разработанный Apple для одновременного отслеживания 3D-движений нескольких людей, который принципиально отличается от покадрового обнаружения и классических способов трекинга.

CoMotion использует рекуррентную модель, которая поддерживает набор отслеживаемых 3D-поз и обновляет их при поступлении нового кадра, непосредственно анализируя пиксели изображения. Способность использовать визуальные подсказки вкупе с парадигмой tracking by attention позволяет CoMotion эффективно отслеживать перекрывающихся и временно исчезающих из виду людей.

Архитектура CoMotion состоит из модуля обнаружения (он определяет кандидатов на новые треки) и модуля обновления поз (корректирует позы существующих треков). Оба модуля работают с признаками изображения, извлеченными с помощью стандартной модели ConvNextV2. Модуль обновления поз использует cross-attention к признакам изображения для каждого трека, опираясь на предыдущие состояния, и применяет GRU для рекуррентного обновления скрытых состояний.

Прогнозирование 3D-поз выполняется путем параметризации модели SMPL, а управление треками основано на эвристических правилах, использующих модифицированную метрику Object Keypoint Similarity (OKS).

Модель CoMotion обучается в 3 этапа. Первый - предварительное обучение энкодера и модуля обнаружения на больших наборах данных отдельных изображений (псевдо-размеченные InstaVariety, COCO, MPII и синтетический BEDLAM). Второй - обучение модуля обновления поз на коротких видео из BEDLAM, WHAC-A-MOLE и размеченных PoseTrack и DanceTrack. На финальном этапе обучение модуля обновления поз продолжается на более длинных видеопоследовательностях.

Экспериментальная оценка CoMotion проводилась на стандартных бенчмарках для отслеживания и оценки поз. На PoseTrack21 CoMotion показал значительное улучшение метрик (MOTA на 14% и IDF1 на 12%). При этом CoMotion работает на порядок быстрее, чем сопоставимая система 4DHumans.

▶️Локальный инференс:

# Clone the repo
git clone https://github.com/apple/ml-comotion.git
cd ml-comotion

# Create a conda env
conda create -n comotion -y python=3.10
conda activate comotion

# Install dependencies
pip install -e

# Download models
bash get_pretrained_models.sh

# Run CoMotion
python demo.py -i path/to/video.mp4 -o results/


📌Лицензирование: Apple License.


🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3DTracking #CoMotion #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Dia: открытая ИИ-модель для генерации речи с контролем над интонацией и невербальными элементами.

Два корейских студента без глубокого опыта в ИИ разработали Dia — модель для создания подкаст-диалогов, способную конкурировать с Google NotebookLM. Используя TPU от Google, они обучили модель на 1,6 млрд. параметров, которая позволяет настраивать тон голоса, добавлять паузы, смех и клонировать голоса.

Dia доступна на Hugging Face и GitHub, для запуска на ПК нужен GPU от 10 ГБ VRAM. В отличие от аналогов, Dia даёт пользователям контроль над сценарием: можно прописать реплики, выбрать «характер» говорящего или загрузить образец для клонирования. Короткое тестирование, проведенное редакцией TechCrunch показало, что Dia справляется с диалогами на любые темы, а качество голосов не уступает коммерческим решениям.
techcrunch.com

🟡 Hugging Face
🟡GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 NarratoAI — инструмент, который использует LLM для генерации сценариев, автоматического редактирования видео, озвучивания и создания субтитров!

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ Adobe запускает публичную бета-версию механизма маркировки сгенерированных изображений.

Adobe запустила публичную бета-версию веб-приложения Content Authenticity — бесплатного инструмента, который помогает закрепить за контентом «цифровой паспорт» (Content Credentials). С его помощью можно привязать к файлам идентификатор, ссылки на соцсети и даже запретить обучение ИИ на своих работах.

Технология объединяет криптографические метаданные, цифровые отпечатки и невидимые водяные знаки, которые сохраняются даже после скриншотов. Проверить данные можно через Chrome-расширение или Inspect-сервис.

Adobe ведет переговоры с Leica, Nikon, Samsung и OpenAI, чтобы встроить Content Credentials в камеры, смартфоны и ИИ-инструменты. Для авторов это не только защита, но и возможность повысить доверие аудитории. Пользователи, в свою очередь, получат прозрачность: «паспорт» покажет, кто и как создал контент, что особенно актуально в эпоху deepfake-угроз.
blog.adobe.com

✔️ Tavus представила липсинк-модель Hummingbird-0.

Tavus, разработчик в области ИИ-видео, запустила в превью модель Hummingbird-0 — модель для синхронизации движений губ без предварительного обучения. Теперь достаточно одного видео и аудиодорожки, чтобы «оживить» речь человека, сохранив его мимику и качество изображения.

Hummingbird-0 построен на компонентах флагманской модели Phoenix-3 и превосходит аналоги по точности синхронизации (LSE-D — 6,74) и сохранению идентичности (Arcface — 0,84). Интеграция с генераторами видео (Veo или Sora) позволяет добавлять голос даже к «немым» роликам, превращая их в полноценные истории. Модель доступна на платформах Tavus и FAL — попробовать можно уже сегодня.
tavus.io

✔️ Классические игры стали новым бенчмарком для ИИ.

Game Arena представила исследование, где платформеры и игры-головоломки используются для тестирования фундаментальных моделей. Оказалось, что Claude 3.7 или GPT-4o справляются хуже людей в задачах, требующих быстрой реакции и пространственного мышления - в Tetris модели часто ошибались при выборе блоков, а в Sokoban не могли пройти уровни, которые человек решает за минуты.

Для экспериментов игры адаптировали: добавили модули преобразования изображений в текст, «заморозку» процесса и память для долгосрочного планирования. Лучшие результаты показали модели с усиленным логическим мышлением, но разрыв с человеческим уровнем все еще значителен.
Проект открыт для разработчиков — код доступен на GitHub.
lmgame.org

✔️ Google DeepMind запустила модель генерации музыки Lyria 2 в обновленном сервисе Music AI Sandbox.

Google DeepMind представила обновление платформы Music AI Sandbox, добавив инструменты для генерации и редактирования музыки на базе ИИ. В основе — модель Lyria 2, создающая высококачественные треки с детализацией жанровых нюансов, и Lyria RealTime, позволяющая экспериментировать со звуком в реальном времени.

Новые функции включают генерацию инструментальных партий по текстовым описаниям, расширение композиций и редактирование стиля с помощью текстовых подсказок. Музыканты могут менять темп, тональность или полностью переосмыслить трек. Платформа, разработанная при участии артистов, теперь доступна в США — заявки принимаются через запись в вейтлист.
deepmind.google

✔️ YouTube тестирует AI Overviews в поиске.

YouTube начал ограниченное тестирование AI Overviews — "карусели" с ключевыми фрагментами видео в результатах поиска. Система анализирует ролики по запросам (например, «лучшие беспроводные наушники» или «музеи Сан-Франциско») и выводит «выжимку» из самых информативных моментов. Пока функция доступна лишь части пользователей YouTube Premium в США и работает на английском языке.

Тестовый период продлится недолго, а его итоги определят судьбу AI Overviews. Пользователи смогут оценивать функцию через лайки/дизлайки, а YouTube — собрать обратную связь для доработки функции.
searchengineland.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📚 IPEX-LLM — библиотека для оптимизации больших языковых моделей под Intel-железо. Проект позволяет развернуть более 70 моделей (включая Llama 3, Mistral, Qwen и другие) с поддержкой низкобитных вычислений вплоть до INT4.

Особенно впечатляет возможность запуска через Ollama и llama.cpp без ручной настройки, поддержка Hugging Face, LangChain и vLLM и возможность распределенного вывода на нескольких GPU

Тесты показывают, что даже на скромном Intel Arc A770 можно работать с 32B-моделями в 4-битной квантовке. При этом библиотека сохраняет точность — перплексия Q4_K-версий близка к FP16.

🤖 GitHub

@machinelearning_ru
Forwarded from ML Underhood
Крутые постеры с конференции ICLR 2025

Наши инженеры вовсю изучают постеры на мероприятии и делятся самыми любопытными статьями.

TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

Авторы предлагают хитро дообучить Clip для ускорения поиска по видео. Результаты:

— в 1,5-3 раза снижается количество вычислений для инференса, в зависимости от базового метода;
— качество ранжирования в сером плюсе

Приёмы:

— Используется LoRA для дообучения энкодера.
— Применяется специальная процедура усреднения похожих токенов, как по временной, так и по пространственной размерностям.
— Для улучшения такого усреднения используются дополнительные позишн-эмбеды.
— За счёт этого снижается количество обрабатываемых токенов и возникают более явные зависимости между кадрами по времени.

LeanVec: Searching vectors faster by making them fit

Авторы предлагают решение для ускорения процедуры поиска. Идея очень понятная и, возможно, много где реализована.

Собираем выборку запрос-документ, вычисляем матрицы A и B, преобразующие данные в меньшую размерность.
2. На этапе построения базы вычисляем Bx — получаем базу документов меньшей размерности и строим ANN (quant).
В процессе поиска делаем Aq, на основе которой из графа ищем ближайшие документы, а после уточняем кандидатов на этапе реранкинга по оригинальным векторам.

В статье приводят результаты экспериментов показывающие, что меньшая размерность может быть в 3-4 раза меньше исходной без значимой потери качества поиска. Плюс, полученное преобразование устойчиво к OOD.

Странно, что авторы не сравнили своё решение с подходом, использующимся при обучении многих SOTA-эмбеддингов: Matryoshka Representation Learning. В таком случае в модель уже встроены низкие размерности и не нужно ничего дополнительно обучать. По словам авторов, SOTA-библиотека от Intel, в которую они встроились, всё еще имеет всего 150 звезд на Github, так что теоретически идеи хорошие, а вот использовать ли их на практике — об этом стоит 10 раз подумать и самому оценить.

DeLLMa: Decision Making Under Uncertainty with Large Language Models

Авторы учат LLM принимать решения в условиях неопределённости. Они предлагают ввести лист состояний мира, который можно вывести из контекста и к которому, попарно для каждого state-action выводится функция полезности.

Постеры заметили Кирилл Никоров, Алексей Спасёнов, Александр Воронцов

#YaICLR

ML Underhood
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👣 Tessa-Rust-T1-7B-Q8_0-GGUF — компактная 8-битная версия Rust-ориентированной модели Tessa-Rust-T1 в формате GGUF для llama.cpp.

Создана для генерации и автодополнения кода на Rust с учётом лучших практик языка.
Hugging Face

🚀 Обзор модели
Архитектура: трансформер на базе Qwen2.5-Coder-7B-Instruct, дообученный на специализированном Rust-датаcете от Tesslate.

Цель: автономная генерация идиоматичного Rust-кода — функции, структуры, трейты и модули; интеграция в AI-агенты для автоматизации backend-разработки и CLI-утилит.
Hugging Face

Размер: ~7.62 B параметров (после квантования Q8_0) → файл ~8.1 GB в формате GGUF.


⚙️ Ключевые особенности
Глубокое Rust-мышление: поддерживает включение «think-тегов» в промпт для структурированного, многоэтапного рассуждения перед выдачей результата.

Контекстно-чувствительная генерация: учитывает зависимости (crates), lifetimes и идиомы Rust, что снижает количество ошибок после генерации.

Интеграция с агентами: модель готова для использования в автономных системах разработки, быстрой генерации backend-логики, тестов и CLI-утилит.

https://huggingface.co/Tesslate/Tessa-Rust-T1-7B-Q8_0-GGUF
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

Python: www.tgoop.com/pythonl
Linux: www.tgoop.com/linuxacademiya
Собеседования DS: www.tgoop.com/machinelearning_interview
Нерйросети www.tgoop.com/ai_machinelearning_big_data
C++ www.tgoop.com/cpluspluc
Docker: www.tgoop.com/DevopsDocker
Хакинг: www.tgoop.com/linuxkalii
Devops: www.tgoop.com/DevOPSitsec
Data Science: www.tgoop.com/data_analysis_ml
Javascript: www.tgoop.com/javascriptv
C#: www.tgoop.com/csharp_ci
Java: www.tgoop.com/javatg
Базы данных: www.tgoop.com/sqlhub
Python собеседования: www.tgoop.com/python_job_interview
Мобильная разработка: www.tgoop.com/mobdevelop
Golang: www.tgoop.com/Golang_google
React: www.tgoop.com/react_tg
Rust: www.tgoop.com/rust_code
ИИ: www.tgoop.com/vistehno
PHP: www.tgoop.com/phpshka
Android: www.tgoop.com/android_its
Frontend: www.tgoop.com/front
Big Data: www.tgoop.com/bigdatai
МАТЕМАТИКА: www.tgoop.com/data_math
Kubernets: www.tgoop.com/kubernetc
Разработка игр: https://www.tgoop.com/gamedev
Haskell: www.tgoop.com/haskell_tg
Физика: www.tgoop.com/fizmat

💼 Папка с вакансиями: www.tgoop.com/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: www.tgoop.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tgoop.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tgoop.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tgoop.com/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: www.tgoop.com/memes_prog
🇬🇧Английский: www.tgoop.com/english_forprogrammers
🧠ИИ: www.tgoop.com/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://www.tgoop.com/addlist/BkskQciUW_FhNjEy
🔥 DeepSeek r2 все ближе и ближе

huggingface.co/deepseek-ai

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Trieve — универсальный поиск и RAG для разработчиков. Этот open-source проект предлагает готовое решение интеллектуального поиска в приложении.

Система поддерживает кастомные модели эмбеддингов и ранжирования, а также интеграцию с OpenAI/Jina для генерации ответов. Есть готовые SDK для Python и TypeScript.

🤖 GitHub

@machinelearning_ru
📚 Chainlit — опенсорсный фреймворк от Literal AI для создания чат-интерфейсов за считанные минуты. Проект выделяется минималистичным подходом: всего несколько строк кода на Python превращают любой скрипт в интерактивное веб-приложение с историей сообщений и визуализацией шагов выполнения.

Особенность инструмента в интеграции с популярными инструментами без сложной настройки. В репозитории есть примеры для OpenAI, Anthropic и других провайдеров, а продвинутые фичи вроде мониторинга через Literal AI доступны для корпоративных пользователей.

🤖 GitHub

@machinelearning_ru
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI и Microsoft отдаляются друг от друга.

В партнерстве OpenAI с Microsoft появляются трещины. Хотя Microsoft помогла проекту OpenAI ChatGPT добиться большого успеха за счет огромных инвестиций, у генеральных директоров обеих сторон имеются разногласия по таким вопросам, как предоставление вычислительной мощности, доступ к моделям и способность ИИ достичь AGI. Microsoft активно разрабатывал Copilot и тайно сформировал команду для разработки модели, которая заменит OpenAI.

Даже несмотря на то, что обе стороны готовятся к своему независимому будущему, они остаются в зависимости друг от друга. Microsoft имеет право не допустить преобразования OpenAI в независимую коммерческую компанию, в то время как OpenAI может помешать Microsoft получить доступ к своим самым передовым технологиям.
wsj.com

✔️ Duolingo переходит на ИИ: людей заменят нейросети.

Duolingo объявила о запуске стратегии «AI-first» - компания постепенно откажется от наемных работников в пользу ИИ. Основатель, Луис фон Ан, в письме сотрудникам пояснил, что ИИ поможет убрать рутину, перестроить процессы и ускорить создание обучающего контента.

Внедрение ИИ коснется найма и оценки сотрудников — новые штатные позиции одобрят, только если команда не сможет автоматизировать задачи. При этом фон Ан подчеркивает: речь не о замене людей, а о перераспределении ресурсов. Сотрудникам обещают поддержку в обучении и переход к творческим проектам.

В Duolingo уверены, что ИИ не только повысит эффективность, но и приблизит миссию — сделать обучение доступным для миллионов. Технологии вроде «Video Call», имитирующие репетитора, уже тестируются. Компания готова мириться с временными недочетами в качестве, лишь бы не упустить момент.
theverge.com

✔️ Глава xAI анонсировал запуск Grok 3.5 на следующей неделе.

Илон Маск написал в X, что на следующей неделе ранняя бета-версия Grok 3.5 будет выпущена только для подписчиков SuperGrok. По его словам, это первый ИИ, который может точно отвечать на вопросы о ракетных двигателях или электрохимических технологиях.
Elon Musk в X (ex-Twitter)

✔️ Google добавила более 50 языков в сервис в NotebookLM.

Audio Overviews, который превращает ваши источники в диалоги в стиле подкастов, теперь поддерживает свыше 50 языков. Помимо английского, доступны испанский, португальский, французский, хинди, турецкий и РУССКИЙ.

Чтобы сменить язык, нужно зайти в настройки NotebookLM (в правом верхнем углу), выбрать «Язык вывода» — и AI начнёт генерировать ответы и озвучивать обзоры на нужном вам языке. NotebookLM интегрирован ещё и в Gemini, а также Google Docs — так что даже текстовые документы можно превратить в аудиоформат.

➡️ Аудио-версия дайджеста, сделана NotebookLM, зацените.
blog.google

✔️ Разработчики Llama запустила приложение для голосового взаимодействия с ИИ.

Разработчики llama представили новое приложение, где главной фишкой стал голосовой ассистент, работающий на модели Llama 4. В отличие от стандартных чат-ботов, здесь упор сделан на естественность диалога: ИИ генерирует речь в реальном времени благодаря полнодуплексной технологии, а не просто зачитывает текст. Пока функция доступна в США, Канаде, Австралии и Новой Зеландии — разработчики просят пользователей тестировать демо-режим и делиться фидбеком.

Приложение интегрируется с соцсетью компании, WhatsUp, и очками Ray-Ban Meta — начатый на одном устройстве диалог можно продолжить в веб-версии или мобильном интерфейсе. Ассистент учится на ваших данных: если подключить аккаунты соцсетей, он подстраивает ответы под интересы, запоминает предпочтения и предлагает персонализированные рекомендации.

Для тех, кто любит эксперименты, есть генератор изображений и шаблоны для документов — их можно редактировать голосом или текстом. А чтобы не перегружать интерфейс, голосовое управление включается одной кнопкой, а иконка микрофона всегда показывает, когда система вас «слышит». Скачать приложение уже можно на iOS и Android.
about.fb.com

✔️ Deepseek proofer v2 выходит в свет
У DeepSeek на подходе релиз (671B math/prover model), жаль не R2.
HF

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 А вот и новый DeepSeek Prover v2

🚀 Новый DeepSeek-Prover-V2: Модель для доказательства теорем yf Lean 4

Lean 4 — это зависимо типизированный функциональный язык программирования и интерактивное средство доказательства теорем .

Результаты:
Новая Sota( 88,9%) на MiniF2F-test.
• DeepSeek-Prover-V2 смогла доказать 49 теорем из 658.

🔍 Как это работает:

1) Разложение теорем: DeepSeek-V3 по prompt'у разбивает сложные задачи на подцели.

2) Формализация: Пошаговые рассуждения переводятся в доказательства на Lean 4.

3) Cold-start: Полученные цепочки рассуждений и формальные доказательства используются как начальные данные для обучения модели.

🌟 Два размера:
7 B — базовый вариант.
671 B — расширенная версия на базе DeepSeek-V3-Base.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Mem0 персонализированная память для ИИ-ассистентов. Этот инструмент запоминает предпочтения пользователей, контекст диалогов и даже адаптирует ответы на основе предыдущих взаимодействий.

Проект работает как кроссплатформенное решение и поддерживает большой пласт ассистентов: от медицинских чат-ботов до игровых NPC. Инструмент также предлагает облачную версию и open-source пакет для самостоятельного развертывания.

🤖 GitHub

@machinelearning_ru
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Suno снова задаёт тон — новая модель V4.5 звучит как живая музыка!

— Добавлены новые жанры;
— Вокал эмоциональнее: от шёпота до мощного форте;
— Мелодии сложнее и чётче;
— Инструменты звучат реалистично, без металлического скрежета;
— Теперь песни до 8 минут!

Доступ ограничен, проверяем!

#Suno #AI #музыка #V45

https://suno.com/create
2025/06/11 09:51:21
Back to Top
HTML Embed Code: