MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре.
MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана.
При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей.
Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео.
В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео:
⚠️ Согласно обсуждению в
issues
репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал.Страница проекта
Модель
Arxiv
Demo
GitHub
👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Media is too big
VIEW IN TELEGRAM
Rag | самое понятное объяснение!
В этом подробном гайд‑видео я раскрываю всё, что нужно знать о RAG (Retrieval Augmented Generation) — передовом подходе, который выводит большие языковые модели (LLM, GPT‑4, ChatGPT и др.) на новый уровень, добавляя к их генеративным возможностям живую, актуальную базу знаний. Вы увидите, как на практике связать эмбеддинги, векторное хранилище, retriever и generator, чтобы буквально «подпитать» модель свежим контентом и получить точные, аргументированные ответы без «галлюцинаций».
Я пошагово показываю архитектуру, объясняю ключевые нюансы (latency, стоимость, обновление данных), визуально скетчу процесс, разбираю реальные сценарии применения: чат‑бот поддержки, интеллектуальный поиск по корпоративным документам, персонализированный ассистент и многое другое. Параллельно я делюсь лайфхаками, где RAG приносит максимальную пользу, а где лучше отказаться от него в пользу классических решений. После просмотра у вас будет чёткая дорожная карта: как спроектировать, собрать и оптимизировать собственную RAG‑систему под ваш use case.
автор: AIRANEZ
👉 @bigdata_1
В этом подробном гайд‑видео я раскрываю всё, что нужно знать о RAG (Retrieval Augmented Generation) — передовом подходе, который выводит большие языковые модели (LLM, GPT‑4, ChatGPT и др.) на новый уровень, добавляя к их генеративным возможностям живую, актуальную базу знаний. Вы увидите, как на практике связать эмбеддинги, векторное хранилище, retriever и generator, чтобы буквально «подпитать» модель свежим контентом и получить точные, аргументированные ответы без «галлюцинаций».
Я пошагово показываю архитектуру, объясняю ключевые нюансы (latency, стоимость, обновление данных), визуально скетчу процесс, разбираю реальные сценарии применения: чат‑бот поддержки, интеллектуальный поиск по корпоративным документам, персонализированный ассистент и многое другое. Параллельно я делюсь лайфхаками, где RAG приносит максимальную пользу, а где лучше отказаться от него в пользу классических решений. После просмотра у вас будет чёткая дорожная карта: как спроектировать, собрать и оптимизировать собственную RAG‑систему под ваш use case.
автор: AIRANEZ
👉 @bigdata_1
👍6
🧠 ThinkPRM — умный верификатор решений через цепочки рассуждений
Новая модель ThinkPRM проверяет решения пошагово, генерируя цепочку верификации (Chain-of-Thought) — и делает это точнее и в разы дешевле, чем классические PRM, требующие дорогой разметки.
Что нового:
— Использует всего 1% разметки от PRM800K
— Превзошла LLM-as-a-Judge и дискриминативные PRM на задачах из ProcessBench, MATH-500 и AIME'24
— Лучше справляется с зацикливанием, форматом вывода и «переосмыслением»
📊 Вне домена: +8% на GPQA-Diamond, +4.5% на LiveCodeBench
📦 Модель доступна:
👉 [ThinkPRM-14B]
👉 [ThinkPRM-1.5B]
🔗 [Блог] | [Статья] | [Датасет]
👉 @bigdata_1
Новая модель ThinkPRM проверяет решения пошагово, генерируя цепочку верификации (Chain-of-Thought) — и делает это точнее и в разы дешевле, чем классические PRM, требующие дорогой разметки.
Что нового:
— Использует всего 1% разметки от PRM800K
— Превзошла LLM-as-a-Judge и дискриминативные PRM на задачах из ProcessBench, MATH-500 и AIME'24
— Лучше справляется с зацикливанием, форматом вывода и «переосмыслением»
📊 Вне домена: +8% на GPQA-Diamond, +4.5% на LiveCodeBench
📦 Модель доступна:
👉 [ThinkPRM-14B]
👉 [ThinkPRM-1.5B]
🔗 [Блог] | [Статья] | [Датасет]
👉 @bigdata_1
👍2
DiffusionInst: Diffusion Model for Instance Segmentation
DiffusionInst — первый алгоритм диффузионной модели для сегментации объектов.
🖥 Github:https://github.com/chenhaoxing/DiffusionInst
🌐 Instruction: https://github.com/chenhaoxing/DiffusionInst/blob/main/GETTING_STARTED.md
⏩ Paprer: https://arxiv.org/abs/2212.02773v2
⭐️ Dataset: https://paperswithcode.com/dataset/lvis
👉 @bigdata_1
DiffusionInst — первый алгоритм диффузионной модели для сегментации объектов.
🖥 Github:https://github.com/chenhaoxing/DiffusionInst
🌐 Instruction: https://github.com/chenhaoxing/DiffusionInst/blob/main/GETTING_STARTED.md
⏩ Paprer: https://arxiv.org/abs/2212.02773v2
⭐️ Dataset: https://paperswithcode.com/dataset/lvis
👉 @bigdata_1
👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation
Метод, который преобразует предварительно обученную 2D-генеративную модель диффузии на изображениях в 3D-генеративную модель, не требуя каких-либо 3D-данных.
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116
🖥 Github: https://github.com/pals-ttic/sjc
⏩ Paprer: https://arxiv.org/abs/2212.00774v1
✅️ Colab: https://colab.research.google.com/drive/1zixo66UYGl70VOPy053o7IV_YkQt5lCZ
👉 @bigdata_1
Метод, который преобразует предварительно обученную 2D-генеративную модель диффузии на изображениях в 3D-генеративную модель, не требуя каких-либо 3D-данных.
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116
👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
7–8 июня проводим Weekend Offer Analytics
Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 3 лет на Python, готовых работать в офисном или гибридном режиме.
Подавайте заявку до 3 июня — и всего за 2 дня пройдите технические собеседования. После сможете пообщаться с двенадцатью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер.
Узнать подробности и зарегистрироваться.
Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 3 лет на Python, готовых работать в офисном или гибридном режиме.
Подавайте заявку до 3 июня — и всего за 2 дня пройдите технические собеседования. После сможете пообщаться с двенадцатью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер.
Узнать подробности и зарегистрироваться.
👍2
MedMNIST-C: benchmark dataset based on the MedMNIST+ collection covering 12 2D datasets and 9 imaging modalities.
pip install medmnistc
🖥 Github: https://github.com/francescodisalvo05/medmnistc-api
📕 Paper: https://arxiv.org/abs/2406.17536v2
🔥Dataset: https://paperswithcode.com/dataset/imagenet-c
👉 @bigdata_1
pip install medmnistc
🖥 Github: https://github.com/francescodisalvo05/medmnistc-api
📕 Paper: https://arxiv.org/abs/2406.17536v2
🔥Dataset: https://paperswithcode.com/dataset/imagenet-c
👉 @bigdata_1
👍1
Не знаешь на кого пойти учиться ?💥
🛑 Пройди бесплатные онлайн-курсы
🛑 Узнай о самых востребованных профессиях
🛑 Получи уникальную возможность поступить в «Алабуга Политех» после 9 или 11 класса
ПРОЙДИ КУРС ПРЯМО СЕЙЧАС!
ПРОЙДИ КУРС ПРЯМО СЕЙЧАС!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👌1🍾1
Unifying Flow, Stereo and Depth Estimation
Model for three motion and 3D perception tasks
conda env create -f conda_environment.yml
conda activate unimatch
🖥 Github: https://github.com/autonomousvision/unimatch
✏️ Project: https://haofeixu.github.io/unimatch/
🔑 Colab: https://colab.research.google.com/drive/1r5m-xVy3Kw60U-m5VB-aQ98oqqg_6cab?usp=sharing
🗒 Paper: https://arxiv.org/abs/2211.05783v1
➡️ Dataset: https://paperswithcode.com/dataset/scannet
👉 @bigdata_1
Model for three motion and 3D perception tasks
conda env create -f conda_environment.yml
conda activate unimatch
🗒 Paper: https://arxiv.org/abs/2211.05783v1
👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
💥 Ищете возможности в Data Science и ML? На курсе «Специализация Machine Learning» мы научим вас не просто работать с данными, а использовать мощные алгоритмы для бизнес-прогнозирования.
Программа подходит как новичкам, так и профессионалам: от системных аналитиков до инженеров, которые хотят научиться ML с нуля. Мы дадим вам практические знания и опыт, используя актуальные инструменты.
На курсе вы освоите Python, библиотеки pandas, sklearn, глубокое обучение и анализ временных рядов. Пройдете обучение по самым современным фреймворкам и научитесь решать реальные задачи.
➡️ Записывайтесь в группу прямо сейчас: https://vk.cc/cMqaRD
Чтобы успеть воспользоваться 🏷10% скидкой на курс «Специализация Machine Learning» и 🎁 бонусным промокодом ML5 и учиться весь год по ценам мая. Скидка на курс действует по 31.05 включительно!
Программа подходит как новичкам, так и профессионалам: от системных аналитиков до инженеров, которые хотят научиться ML с нуля. Мы дадим вам практические знания и опыт, используя актуальные инструменты.
На курсе вы освоите Python, библиотеки pandas, sklearn, глубокое обучение и анализ временных рядов. Пройдете обучение по самым современным фреймворкам и научитесь решать реальные задачи.
➡️ Записывайтесь в группу прямо сейчас: https://vk.cc/cMqaRD
Чтобы успеть воспользоваться 🏷10% скидкой на курс «Специализация Machine Learning» и 🎁 бонусным промокодом ML5 и учиться весь год по ценам мая. Скидка на курс действует по 31.05 включительно!
Forecasting Future World Events with Neural Networks
Github: https://github.com/andyzoujm/autocast
Paper: https://arxiv.org/abs/2206.15474v1
Dataset: https://people.eecs.berkeley.edu/~hendrycks/intervalqa.tar.gz
👉 @bigdata_1
Github: https://github.com/andyzoujm/autocast
Paper: https://arxiv.org/abs/2206.15474v1
Dataset: https://people.eecs.berkeley.edu/~hendrycks/intervalqa.tar.gz
👉 @bigdata_1
👍2🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
NU-Wave — Official PyTorch Implementation
Github: https://github.com/mindslab-ai/nuwave
Paper: https://arxiv.org/abs/2206.08545v1
Dataset: https://datashare.ed.ac.uk/handle/10283/3443
👉 @bigdata_1
Github: https://github.com/mindslab-ai/nuwave
Paper: https://arxiv.org/abs/2206.08545v1
Dataset: https://datashare.ed.ac.uk/handle/10283/3443
👉 @bigdata_1
👍2
Open R1
Разработчики с Hugging Face повторил полный цикл разработки DeepSeek - от сбора данных до обучения! 🔥
Цель этого репозитория - объяснить все части конвейера создания R1 таким образом, чтобы каждый мог повторить его или построить поверх него свой проект.
Из чего состоит проект:
- src/open_r1 содержит скрипты для обучения и оценки моделей, а также для генерации синтетических данных:
- grpo.py : обучение модели с помощью GRPO
- sft.py: простой SFT
- evaluate.py: оценка модели на основе тестов R1.
- generate.py: генерация синтетических данных с помощью Distilabel.
- Makefile содержит простую в выполнении команду для каждого шага конвейера R1.
https://github.com/huggingface/open-r1
👉 @bigdata_1
Разработчики с Hugging Face повторил полный цикл разработки DeepSeek - от сбора данных до обучения! 🔥
Цель этого репозитория - объяснить все части конвейера создания R1 таким образом, чтобы каждый мог повторить его или построить поверх него свой проект.
Из чего состоит проект:
- src/open_r1 содержит скрипты для обучения и оценки моделей, а также для генерации синтетических данных:
- grpo.py : обучение модели с помощью GRPO
- sft.py: простой SFT
- evaluate.py: оценка модели на основе тестов R1.
- generate.py: генерация синтетических данных с помощью Distilabel.
- Makefile содержит простую в выполнении команду для каждого шага конвейера R1.
https://github.com/huggingface/open-r1
👉 @bigdata_1
👍3🔥1
Как масштабировать машинные модели и работать с огромными объемами данных? Откройте для себя возможности Spark ML на открытом уроке от OTUS!
Spark ML — это мощный инструмент для масштабируемого машинного обучения, который позволяет обучать модели на больших данных, не переходя на специализированные ML-системы. Мы покажем, как интеграция с Spark SQL и DataFrame API упрощает ETL-подготовку данных и фичуризацию для реальных проектов.
Убедитесь, как Spark ML решает задачи отказоустойчивости и распределённых вычислений, позволяя вам легко строить промышленные ML-пайплайны.
Посетите открытый урок 11 июня в 20:00 МСК в преддверие старта курса «Spark Developer» и получите скидку на обучение: https://vk.cc/cMFGYY
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Spark ML — это мощный инструмент для масштабируемого машинного обучения, который позволяет обучать модели на больших данных, не переходя на специализированные ML-системы. Мы покажем, как интеграция с Spark SQL и DataFrame API упрощает ETL-подготовку данных и фичуризацию для реальных проектов.
Убедитесь, как Spark ML решает задачи отказоустойчивости и распределённых вычислений, позволяя вам легко строить промышленные ML-пайплайны.
Посетите открытый урок 11 июня в 20:00 МСК в преддверие старта курса «Spark Developer» и получите скидку на обучение: https://vk.cc/cMFGYY
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
ИИ против Машинного Обучения, Глубокого Обучения и Генеративного ИИ — чёткое объяснение
1 — Искусственный интеллект (AI)
Это обобщающее направление, сосредоточенное на создании машин или систем, способных выполнять задачи, которые обычно требуют человеческого интеллекта: рассуждение, обучение, решение проблем, понимание языка и т.д.
AI включает в себя различные поднаправления, такие как машинное обучение (ML), обработка естественного языка (NLP), робототехника и компьютерное зрение.
2 — Машинное обучение (ML)
Это поднаправление AI, которое занимается разработкой алгоритмов, позволяющих компьютерам учиться на данных и принимать решения на их основе.
Вместо того чтобы явно программировать каждую задачу, ML-системы улучшают свои результаты по мере обработки новых данных.
Типичные применения: фильтрация спама, рекомендательные системы, предиктивная аналитика.
3 — Глубокое обучение (Deep Learning)
Это узкая область машинного обучения, использующая искусственные нейронные сети с множеством слоёв для моделирования сложных закономерностей в данных.
Нейронные сети — это вычислительные модели, вдохновлённые структурой мозга человека. Глубокие нейросети способны автоматически находить нужные представления для распознавания.
Примеры использования: распознавание изображений и речи, обработка естественного языка, автономные транспортные средства.
4 — Генеративный искусственный интеллект (Generative AI)
Это AI-системы, способные создавать новый контент — текст, изображения, музыку, код и т.п. — похожий на данные, на которых они обучались. Они работают на основе трансформерной архитектуры.
Известные модели генеративного AI: GPT (генерация текста), DALL·E (создание изображений).
👉 @bigdata_1
1 — Искусственный интеллект (AI)
Это обобщающее направление, сосредоточенное на создании машин или систем, способных выполнять задачи, которые обычно требуют человеческого интеллекта: рассуждение, обучение, решение проблем, понимание языка и т.д.
AI включает в себя различные поднаправления, такие как машинное обучение (ML), обработка естественного языка (NLP), робототехника и компьютерное зрение.
2 — Машинное обучение (ML)
Это поднаправление AI, которое занимается разработкой алгоритмов, позволяющих компьютерам учиться на данных и принимать решения на их основе.
Вместо того чтобы явно программировать каждую задачу, ML-системы улучшают свои результаты по мере обработки новых данных.
Типичные применения: фильтрация спама, рекомендательные системы, предиктивная аналитика.
3 — Глубокое обучение (Deep Learning)
Это узкая область машинного обучения, использующая искусственные нейронные сети с множеством слоёв для моделирования сложных закономерностей в данных.
Нейронные сети — это вычислительные модели, вдохновлённые структурой мозга человека. Глубокие нейросети способны автоматически находить нужные представления для распознавания.
Примеры использования: распознавание изображений и речи, обработка естественного языка, автономные транспортные средства.
4 — Генеративный искусственный интеллект (Generative AI)
Это AI-системы, способные создавать новый контент — текст, изображения, музыку, код и т.п. — похожий на данные, на которых они обучались. Они работают на основе трансформерной архитектуры.
Известные модели генеративного AI: GPT (генерация текста), DALL·E (создание изображений).
👉 @bigdata_1
👍5👎2
🎯RecSys R&D команда из Яндекса разработали рекомендательные системы нового поколения на базе больших генеративных нейросетей.
В то время как индустрия пристально следит за успехами LLM, в другой ключевой сфере — рекомендательных системах — случился важный апдейт. Исследователи Яндекса разработали и внедрили в свои сервисы новую трансформерную модель ARGUS (AutoRegressive Generative User Sequential Modeling), способную буквально «читать» поведение пользователя.
Алгоритмы учитывают сложные последовательности (включая мельчайшие фидбеки), предсказывают большое количество обезличенных действий и точнее понимают реакцию и вкусы пользователей. Особенно актуально в эпоху, когда рекомендательные системы становятся фундаментом современных сервисов, а контента становится слишком много.
На Хабре подробно описано, как команда масштабировала систему. Выделили 3 главных условия нейросетевого масштабирования: должен быть огромный массив данных, выразительная архитектура с большой емкостью модели и фундаментальная задача обучения.
В Яндекс Музыке генеративные нейросети в рекомендациях используются уже с 2023. Она же стала первым сервисом, в который интегрировали новые модели и перевели их в онлайн. В результате: пользователи стали ставить на 20% больше лайков, а разнообразие рекомендаций выросло. В Яндекс Маркете внедрение новых алгоритмов позволило учитывать в несколько раз больше обезличенного контекста о пользовательском поведении на сервисе — это эквивалентно примерно двум годам активности покупателей. Рекомендации позволяют чаще встречать интересные товары, и учитывают сезонность. Если, например, прошлым летом пользователь интересовался футболом, то в этот сезон система посоветуем ему мячи или спортивную униформу. В будущем апдейт получат и другие сервисы компании.
В то время как индустрия пристально следит за успехами LLM, в другой ключевой сфере — рекомендательных системах — случился важный апдейт. Исследователи Яндекса разработали и внедрили в свои сервисы новую трансформерную модель ARGUS (AutoRegressive Generative User Sequential Modeling), способную буквально «читать» поведение пользователя.
Алгоритмы учитывают сложные последовательности (включая мельчайшие фидбеки), предсказывают большое количество обезличенных действий и точнее понимают реакцию и вкусы пользователей. Особенно актуально в эпоху, когда рекомендательные системы становятся фундаментом современных сервисов, а контента становится слишком много.
На Хабре подробно описано, как команда масштабировала систему. Выделили 3 главных условия нейросетевого масштабирования: должен быть огромный массив данных, выразительная архитектура с большой емкостью модели и фундаментальная задача обучения.
В Яндекс Музыке генеративные нейросети в рекомендациях используются уже с 2023. Она же стала первым сервисом, в который интегрировали новые модели и перевели их в онлайн. В результате: пользователи стали ставить на 20% больше лайков, а разнообразие рекомендаций выросло. В Яндекс Маркете внедрение новых алгоритмов позволило учитывать в несколько раз больше обезличенного контекста о пользовательском поведении на сервисе — это эквивалентно примерно двум годам активности покупателей. Рекомендации позволяют чаще встречать интересные товары, и учитывают сезонность. Если, например, прошлым летом пользователь интересовался футболом, то в этот сезон система посоветуем ему мячи или спортивную униформу. В будущем апдейт получат и другие сервисы компании.
Хабр
ARGUS: как масштабировать рекомендательные трансформеры
Привет! Меня зовут Кирилл Хрыльченко. Я руковожу командой, которая занимается R&D для рекомендательных технологий в Яндексе. Одна из наших основных задач — развивать...
👍1