LTX-Video — это open-source библиотека для высокоэффективной обработки видео на языке Rust, созданная компанией Lightricks (известной своими мобильными приложениями для обработки фото и видео, такими как Facetune и Enlight).
🔑 Ключевые особенности:
✅ Фокус на быстродействии и многопоточности
✅ Возможность обрабатывать большие видеофайлы с минимальным потреблением памяти
✅ Поддержка наборов видеофильтров и пайплайнов для трансформации видео
✅ Использует Rust FFI для безопасного взаимодействия с C/C++ библиотеками (например, FFmpeg)
🛠 Для чего используется:
Применение фильтров
Кадровая обработка
Преобразование форматов
Построение кастомных пайплайнов обработки видео
Интеграция в backend- или mobile-приложения, где важны скорость и безопасность
Пробовать вы можете в LTX Studio или запустить проект у себя.
https://github.com/Lightricks/LTX-Video
🔑 Ключевые особенности:
✅ Фокус на быстродействии и многопоточности
✅ Возможность обрабатывать большие видеофайлы с минимальным потреблением памяти
✅ Поддержка наборов видеофильтров и пайплайнов для трансформации видео
✅ Использует Rust FFI для безопасного взаимодействия с C/C++ библиотеками (например, FFmpeg)
🛠 Для чего используется:
Применение фильтров
Кадровая обработка
Преобразование форматов
Построение кастомных пайплайнов обработки видео
Интеграция в backend- или mobile-приложения, где важны скорость и безопасность
Пробовать вы можете в LTX Studio или запустить проект у себя.
https://github.com/Lightricks/LTX-Video
Учитесь в универе и хотите вырваться из рутины? Подайте заявку на бесплатный студкемп Яндекс Образования и НГУ! Здесь вы не просто переключитесь с повседневных задач, а нырнёте в одно из самых перспективных IT-направлений — NLP.
За две недели — с 14 по 26 июля — вы разберётесь, как работают языковые модели вроде YandexGPT и Qwen, поймёте, что такое мультимодальность и RAG, поработаете с реальными данными и создадите собственный проект. На интенсиве ждут студентов со всей России и каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте подать заявку до 18 мая!
За две недели — с 14 по 26 июля — вы разберётесь, как работают языковые модели вроде YandexGPT и Qwen, поймёте, что такое мультимодальность и RAG, поработаете с реальными данными и создадите собственный проект. На интенсиве ждут студентов со всей России и каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте подать заявку до 18 мая!
Исследователи из Carnegie Mellon University создали IT-компанию из нейросетей — и это уморительно! ChatGPT, Claude, Gemini, LLaMa, Amazon Nova и Qwen получили роли: от менеджера до кодера.
Им дали 175 задач на 3000 часов работы для 20 человек: от серфинга в браузере до мемов в мессенджерах и работы с GitLab и Jira.
Итог: Claude 3.5 Sonnet — звезда с 24% выполненных задач, Gemini 2.0 Flash — 11,4%, а Amazon Nova Pro v1 стал «работником месяца» с 1,7%.
Социалка провалилась: Claude, не найдя коллегу в RocketChat, переименовал чужой контакт и отправил задачу 😂
Вывод: дорого ($6 за простую задачу), криво, но работа у людей пока есть 💃
https://the-agent-company.com/
Им дали 175 задач на 3000 часов работы для 20 человек: от серфинга в браузере до мемов в мессенджерах и работы с GitLab и Jira.
Итог: Claude 3.5 Sonnet — звезда с 24% выполненных задач, Gemini 2.0 Flash — 11,4%, а Amazon Nova Pro v1 стал «работником месяца» с 1,7%.
Социалка провалилась: Claude, не найдя коллегу в RocketChat, переименовал чужой контакт и отправил задачу 😂
Вывод: дорого ($6 за простую задачу), криво, но работа у людей пока есть 💃
https://the-agent-company.com/
Forwarded from Machinelearning
ZeroSearch — фреймворк на базе RL от Alibaba, который учит языковые модели искать данные, вообще не подключаясь к реальным поисковым системам.
Пайплайн ZeroSearch начинается с тонкой настройки (SFT): модель учат генерировать документы, похожие на вывод реального поисковика. Через промпты вида «создай пять полезных/мусорных документов» LLM осваивает 2 режима: релевантные ответы с правильными фактами и «мусор» с случайной информацией.
Дальше в дело вступает RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала рассуждает в тегах <think>, затем генерирует поисковые запросы через <search>, а получив смоделированные документы, формирует окончательный ответ в <answer>.
Сквозь весь процесс происходит поэтапное усложнение. В начале тренировки 90% документов чистые, чтобы агент освоил базовую логику. С каждым шагом доля шума растет по специальной формуле: через 200 итераций вероятность получить бесполезный документ увеличивается вчетверо.
Это заставляет модель учиться фильтровать информацию даже в условиях хаоса. Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов — так фокус остается на улучшении стратегии поиска, а не на подгонке под шум.
На выходе получается автономный агент, который не просто ищет, но и учится когда искать, как формулировать запросы и что игнорировать. И все это без единого реального API, только симуляция и математика.
Итоги экспериментальных тестов выглядят позитивными. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct показала 43.24% точности (EM), оставляя позади Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще заметнее: 29.21% против 34.55% у конкурента.
Но главное, 14B-версия модели превосходит живой поисковик по среднему показателю на 33.97% против 32.47% у Google. Интересно еще и то, как масштаб влияет на результат: 3B модель дает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%.
⚠️ В промпте к этим моделям необходимо добавить метки
[useful]
или [noisy]
. В инференсе модель возвращает 5 документов заданного типа.@ai_machinelearning_big_data
#AI #ML #LLM #ZeroSearch #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Bittensor — децентрализованный рынок машинного интеллекта. Этот необычный проект объединяет блокчейн и ИИ, создавая конкурентную среду для разработчиков ML-моделей.
Участники сети получают токены TAO за создание лучших моделей в различных категориях — от предсказания рынков до фолдинга белков. Проект имеет необычную архитектуру: основная цепь координирует работу независимых подсетей, где валидаторы оценивают качество моделей, а майнеры соревнуются в их создании.
🤖 GitHub
@machinelearning_ru
Участники сети получают токены TAO за создание лучших моделей в различных категориях — от предсказания рынков до фолдинга белков. Проект имеет необычную архитектуру: основная цепь координирует работу независимых подсетей, где валидаторы оценивают качество моделей, а майнеры соревнуются в их создании.
🤖 GitHub
@machinelearning_ru
NVIDIA’s New AI: Impossible Video Game Animations!
https://www.youtube.com/watch?v=7EA5JM1DI9Y
@machinelearning_ru
https://www.youtube.com/watch?v=7EA5JM1DI9Y
@machinelearning_ru
YouTube
NVIDIA’s New AI: Impossible Video Game Animations!
❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambda.ai/papers
Guide for using DeepSeek on Lambda:
https://docs.lambdalabs.com/education/large-language-models/deepseek-r1-ollama/?utm_source=two-minute-papers&utm_campaign=relevant-vid…
Guide for using DeepSeek on Lambda:
https://docs.lambdalabs.com/education/large-language-models/deepseek-r1-ollama/?utm_source=two-minute-papers&utm_campaign=relevant-vid…
🤖 Обработка естественного языка (NLP) — ключевая технология, которая меняет индустрию анализа данных и искусственного интеллекта. Если вы хотите работать с текстовыми данными на высоком уровне, разбираться в нейросетях, трансформерах и языковых моделях, то это обучение для вас.
🔥 На курсе «NLP / Natural Language Processing» вы изучите методы парсинга, анализ текстов, создание телеграм-ботов, освоите архитектуру трансформеров и научитесь применять модели вроде GPT и BERT.
Это структурированная программа, которая сочетает академическую глубину и практическое применение в бизнесе.
➡️ Пройдите вступительное тестирование и присоединяйтесь к группе: https://otus.pw/mJWh/
#реклама
О рекламодателе
🔥 На курсе «NLP / Natural Language Processing» вы изучите методы парсинга, анализ текстов, создание телеграм-ботов, освоите архитектуру трансформеров и научитесь применять модели вроде GPT и BERT.
Это структурированная программа, которая сочетает академическую глубину и практическое применение в бизнесе.
➡️ Пройдите вступительное тестирование и присоединяйтесь к группе: https://otus.pw/mJWh/
#реклама
О рекламодателе
🔍 Vespa — поисковая платформа для работы с векторами и ML-моделями в реальном времени.
Проект предлагает нестандартный подход к обработке данных: он объединяет полнотекстовый поиск, векторные операции и ML-инференс в едином конвейере.
Платформа развертывается как в облаке, так и on-premise, а её архитектура оптимизирована для задач рекомендательных систем и персонализации. Хотя проект существует с 2003 года, он активно развивается — новые сборки выходят четыре раза в неделю.
🤖 GitHub
@machinelearning_ru
Проект предлагает нестандартный подход к обработке данных: он объединяет полнотекстовый поиск, векторные операции и ML-инференс в едином конвейере.
Платформа развертывается как в облаке, так и on-premise, а её архитектура оптимизирована для задач рекомендательных систем и персонализации. Хотя проект существует с 2003 года, он активно развивается — новые сборки выходят четыре раза в неделю.
🤖 GitHub
@machinelearning_ru
Introduction to Large Language Models (Google Cloud)
Онлайн-курс об архитектуре LLM, их применении и тонкой настройке.
🔗 https://www.cloudskillsboost.google/course_templates/276
ChatGPT Prompt Engineering for Developers (DeepLearning.AI & OpenAI)
Мини-курс по эффективному созданию промптов и использованию ChatGPT API.
🔗 https://learn.deeplearning.ai/chatgpt-prompt-eng
Learn Prompting (Open-Source Course)
Один из лучших бесплатных курсов по промпт-инжинирингу.
🔗 https://learnprompting.org/
Hugging Face Course
Базовый и средний уровень: трансформеры, токенизаторы, Datasets и Hub.
🔗 https://huggingface.co/course
Full Stack LLM Bootcamp (Fullstack Deep Learning)
Производственный уровень: инженерия запросов, LangChain, LLMOps.
🔗 https://fullstackdeeplearning.com/llm-bootcamp/spring-2023/
Stanford CS224N – Natural Language Processing with Deep Learning
Флагманский курс Стэнфорда по NLP с глубоким обучением.
🔗 https://cs224n.stanford.edu/
CS231n – Convolutional Neural Networks for Visual Recognition
Классический курс по компьютерному зрению.
🔗 http://cs231n.stanford.edu/
CS229 – Machine Learning (Stanford)
Продвинутый курс по ML с математическим уклоном.
🔗 https://cs229.stanford.edu/
AI for Everyone (Andrew Ng)
Обзорный курс по искусственному интеллекту для широкой аудитории.
🔗 https://www.deeplearning.ai/short-courses/ai-for-everyone/
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Cloud Skills Boost
Learn and earn with Google Cloud Skills Boost, a platform that provides free training and certifications for Google Cloud partners and beginners. Explore now.
This media is not supported in your browser
VIEW IN TELEGRAM
Задача под звездочкой.
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Что умеет Wan2.1-VACE:
💡 Эти возможности можно свободно комбинировать, выполняя сложные креативные задачи.
🔍 Ключевые особенности:
▪ SOTA-производительность: Wan2.1 стабильно превосходит существующие open-source модели и даже коммерческие решения уровня state-of-the-art в ряде бенчмарков.
▪ Работает на обычных видеокартах: Модель T2V-1.3B требует всего 8.19 ГБ видеопамяти, что делает её совместимой почти со всеми пользовательскими GPU. Например, на RTX 4090 она генерирует 5-секундное видео 480P примерно за 4 минуты (без оптимизаций, таких как квантизация). Её производительность сопоставима с некоторыми закрытыми моделями.
▪ Мультизадачность: Wan2.1 демонстрирует хорошие результаты в задачах текст-в-видео, изображение-в-видео, видеомонтаж, текст-в-изображение и видео-в-аудио, продвигая границы генерации видео..
▪ Модель способна выдавать 1080P в теории любой длины, при этом сохраняя временную структуру.
- Размер модели: 1.3B и 14B
- Лицензия: Apache-2.
@ai_machinelearning_big_data
#Alibaba #wan #videogeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 ICLR 2025 глазами Яндекса: разбор главных идей в AI
28 апреля завершилась ICLR — одна из ведущих конференций по обучению представлений. А уже 20 мая мы собираемся в Яндексе, чтобы вместе обсудить, *что действительно важно* из докладов этого года.
📍 Москва, Льва Толстого, 16 + онлайн
Приглашаем всех, кто живёт в ML — от исследователей до инженеров.
💬 О чём поговорим?
🔹 Tabular DL — что нового и полезного?
Спикер: Артём Бабенко, руководитель отдела Research
🔹 NLP и большие языковые модели — на что делать ставку?
Спикер: Андрей Бут, руководитель команды YandexGPT Alignment
🔹 Компьютерное зрение — как меняется подход к CV?
Спикер: Роман Исаченко, руководитель CV-направления
🔹 ML-инженерия и поиск — опыт мировых команд
Спикер: Алексей Степанов, CTO Международного поиска
📝 Регистрация уже открыта — присоединяйтесь, будет живо, полезно и точно не скучно.
До встречи на ICLR-разборе!
28 апреля завершилась ICLR — одна из ведущих конференций по обучению представлений. А уже 20 мая мы собираемся в Яндексе, чтобы вместе обсудить, *что действительно важно* из докладов этого года.
📍 Москва, Льва Толстого, 16 + онлайн
Приглашаем всех, кто живёт в ML — от исследователей до инженеров.
💬 О чём поговорим?
🔹 Tabular DL — что нового и полезного?
Спикер: Артём Бабенко, руководитель отдела Research
🔹 NLP и большие языковые модели — на что делать ставку?
Спикер: Андрей Бут, руководитель команды YandexGPT Alignment
🔹 Компьютерное зрение — как меняется подход к CV?
Спикер: Роман Исаченко, руководитель CV-направления
🔹 ML-инженерия и поиск — опыт мировых команд
Спикер: Алексей Степанов, CTO Международного поиска
📝 Регистрация уже открыта — присоединяйтесь, будет живо, полезно и точно не скучно.
До встречи на ICLR-разборе!
👾 MNN — глубокое обучение на мобильных устройствах от Alibaba. Фреймворк, разработанный инженерами Alibaba, стремительно набирает популярность как эффективное решение для запуска нейросетей на мобильных и embedded-устройствах.
MNN уже интегрирован в 30+ сервисов Alibaba, где обрабатывает 70+ сценариев — от рекомендательных систем до компьютерного зрения. Его ключевая особенность в кроссплатформенности: фреймворк работает даже на IoT-устройствах с минимальными ресурсами. Особый интерес представляет встроенный модуль для локального запуска языковых моделей на смартфонах и ПК.
🔗 Ссылка - *клик*
@machinelearning_ru
MNN уже интегрирован в 30+ сервисов Alibaba, где обрабатывает 70+ сценариев — от рекомендательных систем до компьютерного зрения. Его ключевая особенность в кроссплатформенности: фреймворк работает даже на IoT-устройствах с минимальными ресурсами. Особый интерес представляет встроенный модуль для локального запуска языковых моделей на смартфонах и ПК.
🔗 Ссылка - *клик*
@machinelearning_ru
В ElevenLabs запустили бесплатные пробные периоды для популярных инструментов — от озвучки текста до генерации картинок.
Что вы получите:
– Доступ в ElevenLabs на 3 месяца;
– Freepik с кредитами на $50;
– Mistral AI с кредитами на $25;
– Notion AI на полгода.
Получаем доступ по ссылке.
Что вы получите:
– Доступ в ElevenLabs на 3 месяца;
– Freepik с кредитами на $50;
– Mistral AI с кредитами на $25;
– Notion AI на полгода.
Получаем доступ по ссылке.