Forwarded from Machinelearning
ZeroSearch — фреймворк на базе RL от Alibaba, который учит языковые модели искать данные, вообще не подключаясь к реальным поисковым системам.
Пайплайн ZeroSearch начинается с тонкой настройки (SFT): модель учат генерировать документы, похожие на вывод реального поисковика. Через промпты вида «создай пять полезных/мусорных документов» LLM осваивает 2 режима: релевантные ответы с правильными фактами и «мусор» с случайной информацией.
Дальше в дело вступает RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала рассуждает в тегах <think>, затем генерирует поисковые запросы через <search>, а получив смоделированные документы, формирует окончательный ответ в <answer>.
Сквозь весь процесс происходит поэтапное усложнение. В начале тренировки 90% документов чистые, чтобы агент освоил базовую логику. С каждым шагом доля шума растет по специальной формуле: через 200 итераций вероятность получить бесполезный документ увеличивается вчетверо.
Это заставляет модель учиться фильтровать информацию даже в условиях хаоса. Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов — так фокус остается на улучшении стратегии поиска, а не на подгонке под шум.
На выходе получается автономный агент, который не просто ищет, но и учится когда искать, как формулировать запросы и что игнорировать. И все это без единого реального API, только симуляция и математика.
Итоги экспериментальных тестов выглядят позитивными. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct показала 43.24% точности (EM), оставляя позади Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще заметнее: 29.21% против 34.55% у конкурента.
Но главное, 14B-версия модели превосходит живой поисковик по среднему показателю на 33.97% против 32.47% у Google. Интересно еще и то, как масштаб влияет на результат: 3B модель дает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%.
⚠️ В промпте к этим моделям необходимо добавить метки
[useful]
или [noisy]
. В инференсе модель возвращает 5 документов заданного типа.@ai_machinelearning_big_data
#AI #ML #LLM #ZeroSearch #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Bittensor — децентрализованный рынок машинного интеллекта. Этот необычный проект объединяет блокчейн и ИИ, создавая конкурентную среду для разработчиков ML-моделей.
Участники сети получают токены TAO за создание лучших моделей в различных категориях — от предсказания рынков до фолдинга белков. Проект имеет необычную архитектуру: основная цепь координирует работу независимых подсетей, где валидаторы оценивают качество моделей, а майнеры соревнуются в их создании.
🤖 GitHub
@machinelearning_ru
Участники сети получают токены TAO за создание лучших моделей в различных категориях — от предсказания рынков до фолдинга белков. Проект имеет необычную архитектуру: основная цепь координирует работу независимых подсетей, где валидаторы оценивают качество моделей, а майнеры соревнуются в их создании.
🤖 GitHub
@machinelearning_ru
NVIDIA’s New AI: Impossible Video Game Animations!
https://www.youtube.com/watch?v=7EA5JM1DI9Y
@machinelearning_ru
https://www.youtube.com/watch?v=7EA5JM1DI9Y
@machinelearning_ru
YouTube
NVIDIA’s New AI: Impossible Video Game Animations!
❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambda.ai/papers
Guide for using DeepSeek on Lambda:
https://docs.lambdalabs.com/education/large-language-models/deepseek-r1-ollama/?utm_source=two-minute-papers&utm_campaign=relevant-vid…
Guide for using DeepSeek on Lambda:
https://docs.lambdalabs.com/education/large-language-models/deepseek-r1-ollama/?utm_source=two-minute-papers&utm_campaign=relevant-vid…
🤖 Обработка естественного языка (NLP) — ключевая технология, которая меняет индустрию анализа данных и искусственного интеллекта. Если вы хотите работать с текстовыми данными на высоком уровне, разбираться в нейросетях, трансформерах и языковых моделях, то это обучение для вас.
🔥 На курсе «NLP / Natural Language Processing» вы изучите методы парсинга, анализ текстов, создание телеграм-ботов, освоите архитектуру трансформеров и научитесь применять модели вроде GPT и BERT.
Это структурированная программа, которая сочетает академическую глубину и практическое применение в бизнесе.
➡️ Пройдите вступительное тестирование и присоединяйтесь к группе: https://otus.pw/mJWh/
#реклама
О рекламодателе
🔥 На курсе «NLP / Natural Language Processing» вы изучите методы парсинга, анализ текстов, создание телеграм-ботов, освоите архитектуру трансформеров и научитесь применять модели вроде GPT и BERT.
Это структурированная программа, которая сочетает академическую глубину и практическое применение в бизнесе.
➡️ Пройдите вступительное тестирование и присоединяйтесь к группе: https://otus.pw/mJWh/
#реклама
О рекламодателе
🔍 Vespa — поисковая платформа для работы с векторами и ML-моделями в реальном времени.
Проект предлагает нестандартный подход к обработке данных: он объединяет полнотекстовый поиск, векторные операции и ML-инференс в едином конвейере.
Платформа развертывается как в облаке, так и on-premise, а её архитектура оптимизирована для задач рекомендательных систем и персонализации. Хотя проект существует с 2003 года, он активно развивается — новые сборки выходят четыре раза в неделю.
🤖 GitHub
@machinelearning_ru
Проект предлагает нестандартный подход к обработке данных: он объединяет полнотекстовый поиск, векторные операции и ML-инференс в едином конвейере.
Платформа развертывается как в облаке, так и on-premise, а её архитектура оптимизирована для задач рекомендательных систем и персонализации. Хотя проект существует с 2003 года, он активно развивается — новые сборки выходят четыре раза в неделю.
🤖 GitHub
@machinelearning_ru
Introduction to Large Language Models (Google Cloud)
Онлайн-курс об архитектуре LLM, их применении и тонкой настройке.
🔗 https://www.cloudskillsboost.google/course_templates/276
ChatGPT Prompt Engineering for Developers (DeepLearning.AI & OpenAI)
Мини-курс по эффективному созданию промптов и использованию ChatGPT API.
🔗 https://learn.deeplearning.ai/chatgpt-prompt-eng
Learn Prompting (Open-Source Course)
Один из лучших бесплатных курсов по промпт-инжинирингу.
🔗 https://learnprompting.org/
Hugging Face Course
Базовый и средний уровень: трансформеры, токенизаторы, Datasets и Hub.
🔗 https://huggingface.co/course
Full Stack LLM Bootcamp (Fullstack Deep Learning)
Производственный уровень: инженерия запросов, LangChain, LLMOps.
🔗 https://fullstackdeeplearning.com/llm-bootcamp/spring-2023/
Stanford CS224N – Natural Language Processing with Deep Learning
Флагманский курс Стэнфорда по NLP с глубоким обучением.
🔗 https://cs224n.stanford.edu/
CS231n – Convolutional Neural Networks for Visual Recognition
Классический курс по компьютерному зрению.
🔗 http://cs231n.stanford.edu/
CS229 – Machine Learning (Stanford)
Продвинутый курс по ML с математическим уклоном.
🔗 https://cs229.stanford.edu/
AI for Everyone (Andrew Ng)
Обзорный курс по искусственному интеллекту для широкой аудитории.
🔗 https://www.deeplearning.ai/short-courses/ai-for-everyone/
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Cloud Skills Boost
Learn and earn with Google Cloud Skills Boost, a platform that provides free training and certifications for Google Cloud partners and beginners. Explore now.
This media is not supported in your browser
VIEW IN TELEGRAM
Задача под звездочкой.
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Что умеет Wan2.1-VACE:
💡 Эти возможности можно свободно комбинировать, выполняя сложные креативные задачи.
🔍 Ключевые особенности:
▪ SOTA-производительность: Wan2.1 стабильно превосходит существующие open-source модели и даже коммерческие решения уровня state-of-the-art в ряде бенчмарков.
▪ Работает на обычных видеокартах: Модель T2V-1.3B требует всего 8.19 ГБ видеопамяти, что делает её совместимой почти со всеми пользовательскими GPU. Например, на RTX 4090 она генерирует 5-секундное видео 480P примерно за 4 минуты (без оптимизаций, таких как квантизация). Её производительность сопоставима с некоторыми закрытыми моделями.
▪ Мультизадачность: Wan2.1 демонстрирует хорошие результаты в задачах текст-в-видео, изображение-в-видео, видеомонтаж, текст-в-изображение и видео-в-аудио, продвигая границы генерации видео..
▪ Модель способна выдавать 1080P в теории любой длины, при этом сохраняя временную структуру.
- Размер модели: 1.3B и 14B
- Лицензия: Apache-2.
@ai_machinelearning_big_data
#Alibaba #wan #videogeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 ICLR 2025 глазами Яндекса: разбор главных идей в AI
28 апреля завершилась ICLR — одна из ведущих конференций по обучению представлений. А уже 20 мая мы собираемся в Яндексе, чтобы вместе обсудить, *что действительно важно* из докладов этого года.
📍 Москва, Льва Толстого, 16 + онлайн
Приглашаем всех, кто живёт в ML — от исследователей до инженеров.
💬 О чём поговорим?
🔹 Tabular DL — что нового и полезного?
Спикер: Артём Бабенко, руководитель отдела Research
🔹 NLP и большие языковые модели — на что делать ставку?
Спикер: Андрей Бут, руководитель команды YandexGPT Alignment
🔹 Компьютерное зрение — как меняется подход к CV?
Спикер: Роман Исаченко, руководитель CV-направления
🔹 ML-инженерия и поиск — опыт мировых команд
Спикер: Алексей Степанов, CTO Международного поиска
📝 Регистрация уже открыта — присоединяйтесь, будет живо, полезно и точно не скучно.
До встречи на ICLR-разборе!
28 апреля завершилась ICLR — одна из ведущих конференций по обучению представлений. А уже 20 мая мы собираемся в Яндексе, чтобы вместе обсудить, *что действительно важно* из докладов этого года.
📍 Москва, Льва Толстого, 16 + онлайн
Приглашаем всех, кто живёт в ML — от исследователей до инженеров.
💬 О чём поговорим?
🔹 Tabular DL — что нового и полезного?
Спикер: Артём Бабенко, руководитель отдела Research
🔹 NLP и большие языковые модели — на что делать ставку?
Спикер: Андрей Бут, руководитель команды YandexGPT Alignment
🔹 Компьютерное зрение — как меняется подход к CV?
Спикер: Роман Исаченко, руководитель CV-направления
🔹 ML-инженерия и поиск — опыт мировых команд
Спикер: Алексей Степанов, CTO Международного поиска
📝 Регистрация уже открыта — присоединяйтесь, будет живо, полезно и точно не скучно.
До встречи на ICLR-разборе!
👾 MNN — глубокое обучение на мобильных устройствах от Alibaba. Фреймворк, разработанный инженерами Alibaba, стремительно набирает популярность как эффективное решение для запуска нейросетей на мобильных и embedded-устройствах.
MNN уже интегрирован в 30+ сервисов Alibaba, где обрабатывает 70+ сценариев — от рекомендательных систем до компьютерного зрения. Его ключевая особенность в кроссплатформенности: фреймворк работает даже на IoT-устройствах с минимальными ресурсами. Особый интерес представляет встроенный модуль для локального запуска языковых моделей на смартфонах и ПК.
🔗 Ссылка - *клик*
@machinelearning_ru
MNN уже интегрирован в 30+ сервисов Alibaba, где обрабатывает 70+ сценариев — от рекомендательных систем до компьютерного зрения. Его ключевая особенность в кроссплатформенности: фреймворк работает даже на IoT-устройствах с минимальными ресурсами. Особый интерес представляет встроенный модуль для локального запуска языковых моделей на смартфонах и ПК.
🔗 Ссылка - *клик*
@machinelearning_ru
В ElevenLabs запустили бесплатные пробные периоды для популярных инструментов — от озвучки текста до генерации картинок.
Что вы получите:
– Доступ в ElevenLabs на 3 месяца;
– Freepik с кредитами на $50;
– Mistral AI с кредитами на $25;
– Notion AI на полгода.
Получаем доступ по ссылке.
Что вы получите:
– Доступ в ElevenLabs на 3 месяца;
– Freepik с кредитами на $50;
– Mistral AI с кредитами на $25;
– Notion AI на полгода.
Получаем доступ по ссылке.
Media is too big
VIEW IN TELEGRAM
На COMPUTEX 2025 Дженсен Хуанг (CEO NVIDIA) представил обновлённую версию модели NVIDIA — Isaac GR00T N1.5, а также проект GR00T-Dreams.
🔹 Isaac GR00T N1.5 — это первое обновление открытой, универсальной и полностью настраиваемой базовой модели NVIDIA, предназначенной для обучения навыкам и логике поведения человекоподобных роботов.
🔹 По словам Дженсена, "обучение на у людей не масштабируется — нас ограничивает количество часов в сутках". Новый проект GR00T-Dreams позволяет генерировать огромное количество синтетических движений на основе одного изображения, ускоряя обучение роботов с помощью сжатых токенов действий.
🔹 Благодаря GR00T-Dreams удалось обучить модель GR00T N1.5 всего за 36 часов — процесс, который без этого подхода занял бы почти три месяца.
🔹 Обновление значительно повысило эффективность модели при выполнении стандартных задач в логистике и производстве. GR00T N1.5 можно будет запускать на новом устройстве Jetson Thor, релиз которого ожидается в этом году.
🔹 Isaac GR00T N1.5 — это первое обновление открытой, универсальной и полностью настраиваемой базовой модели NVIDIA, предназначенной для обучения навыкам и логике поведения человекоподобных роботов.
🔹 По словам Дженсена, "обучение на у людей не масштабируется — нас ограничивает количество часов в сутках". Новый проект GR00T-Dreams позволяет генерировать огромное количество синтетических движений на основе одного изображения, ускоряя обучение роботов с помощью сжатых токенов действий.
🔹 Благодаря GR00T-Dreams удалось обучить модель GR00T N1.5 всего за 36 часов — процесс, который без этого подхода занял бы почти три месяца.
🔹 Обновление значительно повысило эффективность модели при выполнении стандартных задач в логистике и производстве. GR00T N1.5 можно будет запускать на новом устройстве Jetson Thor, релиз которого ожидается в этом году.
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Главным событием стал запуск Gemini Ultra — подписки за $249,99 в месяц, включающей доступ к Veo 3 (генератор видео со звуком), Imagen 4 (создание изображений) и Flow (редактор видео на базе ИИ). Для разработчиков анонсирован Stitch — инструмент, генерирующий код и UI по текстовому описанию или изображению.
Project Mariner, ИИ-агент для автоматизации веб-задач, теперь выполняет до 10 действий одновременно. В Gemini добавлены Live-режим с трансляцией экрана и интеграция с Google сервисами. Project Astra, мультимодальный ИИ с почти нулевой задержкой, будет использоваться в умных очках от Gentle Monster и Warby Parker.
В Поиске появится AI Mode для сложных запросов, а Beam (бывший Starline) предлагает 3D-телеконференции с переводом речи в реальном времени. В Workspace появятся умные ответы в Gmail и новые функции для Google Meet.
techcrunch.com
Apple анонсировала WWDC 2025: ключевое выступление пройдёт 9 июня в 10:00 PT, а трансляция будет доступна через Apple TV и на YouTube. Главной новостью станет выпуск SDK и фреймворков, позволяющих сторонним разработчикам внедрять ИИ-модели компании в свои приложения. Упор сделан на компактные локальные модели, работающие непосредственно на устройствах, — это отличает подход Apple от облачных решений конкурентов.
apple.com
Red Hat анонсировала обновления для RHEL, усилив интеграцию ИИ и контейнерных технологий. Теперь Red Hat Insights предлагает ИИ-рекомендации по выбору пакетов и планированию обновлений, упрощая подготовку систем под задачи ИИ-разработки. Сервис анализирует потребности инфраструктуры, помогает оптимизировать сборку образов и снижает риски при переходе на новые версии RHEL и AppStream.
Для изолированных сред в Red Hat Satellite 6.17 появился Insights advisor в виде контейнера — правила и исправления будут храниться локально и обновляться без интернета.
Satellite теперь поддерживает image mode, объединяя управление контейнерами и традиционными пакетами в единый рабочий процесс. Не осталась без внимания и безопасность: Insights proxy позволяет подключаться к аналитике RHEL через прокси, минуя прямое соединение с интернетом.
Обновления уже доступны через Hybrid Cloud Console для подписчиков RHEL.
businesswire.com
На мероприятии SAP Sapphire представлена Joule — ИИ-платформа для трансформации бизнес-процессов. Решение интегрируется с S4/Hana, Ariba, ServiceNow, Gmail и LinkedIn, используя ИИ для оптимизации CRM и финансовых операций. Уже сейчас платформа поддерживает 1600 навыков и 230 готовых ИИ-сценариев, а к концу 2025 года их число вырастет до 400.
Особый акцент был сделан на партнерстве с Perplexity: их поисковый движок станет основой для Joule. Гендиректор Perplexity подчеркнул преимущества технологии — широкий охват веба и скорость, опережающие Google и OpenAI.
community.sap.com
Tencent опубликовала техотчет Hunyuan-TurboS — гибридной LLM, сочетающей архитектуры Transformer и Mamba2. Ее ключевая фишка — адаптивный CoT, который автоматически переключается между быстрыми ответами для простых задач и глубоким анализом для сложных. Это экономит ресурсы: модель тратит на 47% меньше токенов при генерации, чем DeepSeek-R1.
Под капотом 128 слоев (57 Mamba2, 7 Attention, 64 FFN) с 56 млрд. активных параметров и 560 млрд. общих. Обучалась на 16 трлн. токенов, а контекстное окно расширено до 256 тыс. токенов благодаря NTK-позиционному кодированию.
В тестах LMSYS Chatbot Arena модель набрала 1356 баллов, войдя в топ-8. Она лидирует в китайском, французском и испанском сегментах, а в математике и STEM-задачах почти догоняет DeepSeek-V3. При этом скорость вывода в 1,8 раза выше, чем у чисто трансформерных аналогов.
Попробовать модель можно в демо-спейсе на HF.
Tencent-Hunyuan на Github
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📈Рекомендательные системы — один из самых востребованных инструментов в современном бизнесе. Они делают опыт клиентов персонализированным, улучшая конверсии и лояльность. Задумываетесь о карьере в этой области?
На курсе «Рекомендательные системы» от OTUS вы научитесь создавать решения, которые активно применяются в e-commerce, финтехе, стриминговых сервисах и социальных сетях. Вы сможете не только внедрять рекомендательные механизмы в реальных проектах, но и анализировать их эффективность с помощью A/B тестов.
Это обучение поможет вам глубже понять, как работают алгоритмы рекомендаций, что позволит повысить вашу экспертность и востребованность на рынке. Вы получите навыки работы с данными и научитесь строить алгоритмы для различных бизнес-целей.
🚀Не упустите шанс освоить одну из самых актуальных и прибыльных сфер в Data Science. Старт группы совсем скоро, оставьте заявку и получите скидку на обучение: https://otus.pw/KkQCb/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ", ИНН: 9705100963
На курсе «Рекомендательные системы» от OTUS вы научитесь создавать решения, которые активно применяются в e-commerce, финтехе, стриминговых сервисах и социальных сетях. Вы сможете не только внедрять рекомендательные механизмы в реальных проектах, но и анализировать их эффективность с помощью A/B тестов.
Это обучение поможет вам глубже понять, как работают алгоритмы рекомендаций, что позволит повысить вашу экспертность и востребованность на рынке. Вы получите навыки работы с данными и научитесь строить алгоритмы для различных бизнес-целей.
🚀Не упустите шанс освоить одну из самых актуальных и прибыльных сфер в Data Science. Старт группы совсем скоро, оставьте заявку и получите скидку на обучение: https://otus.pw/KkQCb/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ", ИНН: 9705100963
В статье собраны 50 лучших бесплатных или условно-бесплатных курсов (сертификат может быть платным), разделённых по уровням:
*Вводный (Beginner) → Промежуточный (Intermediate) → Продвинутый (Advanced).*
После каждого описания приведена полная кликабельная ссылка.
Please open Telegram to view this post
VIEW IN TELEGRAM
7–8 июня проводим Weekend Offer Analytics
Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 3 лет на Python, готовых работать в офисном или гибридном режиме.
Подавайте заявку до 3 июня — и всего за 2 дня пройдите технические собеседования. После сможете пообщаться с двенадцатью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер.
Узнать подробности и зарегистрироваться.
Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 3 лет на Python, готовых работать в офисном или гибридном режиме.
Подавайте заявку до 3 июня — и всего за 2 дня пройдите технические собеседования. После сможете пообщаться с двенадцатью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер.
Узнать подробности и зарегистрироваться.
🧩 Scikit-Lego — неофициальное расширение для Scikit-learn с экспериментальными фичами.
Этот проект является коллекцией нестандартных трансформеров, моделей и метрик, которые часто приходилось писать вручную при работе с Scikit-learn. Здесь собрано все то, что не вошло в официальную библиотеку, но может пригодиться в реальных задачах.
Проект строго соблюдает API Scikit-learn, что позволяет легко встраивать компоненты в существующие пайплайны. При этом разработчики подчеркивают, что их детище это именно дополнение, а не замена классического Scikit-learn.
🤖 GitHub
@machinelearning_ru
Этот проект является коллекцией нестандартных трансформеров, моделей и метрик, которые часто приходилось писать вручную при работе с Scikit-learn. Здесь собрано все то, что не вошло в официальную библиотеку, но может пригодиться в реальных задачах.
Проект строго соблюдает API Scikit-learn, что позволяет легко встраивать компоненты в существующие пайплайны. При этом разработчики подчеркивают, что их детище это именно дополнение, а не замена классического Scikit-learn.
🤖 GitHub
@machinelearning_ru