Telegram Web
⚡️Вчера ByteDance выпустил новую супер модель Bagel, которая базируется да трансформере декодере и решает широкий спектр задач понимания и генерации мультимодальных данных (картинки, видео). Модель умеет как понимать разные модальности, так и генерировать их и вносить изменения (например, редактировать картинку по текстовой инструкции)

Архитектурно это MoE архитектура с двумя типами экспертов: Understanding и Generation. В опен сурс выложена 7B модель (7 млрд. активных параметров, всего их — 14 млрд.)

Модель обучена на нескольких триллионах токенов (отдельная часть исследования посвящена росту качества от увеличения числа токенов на обучении для визуальных генеративных задач), которые включают очень разнообразные задачи: от описания изображений до видеороликов, сопровождаемых траекториями движения. Также проработан механизм подробной фильтрации данных (UI removal, контроль разрешения и др.) Обучение проходит в 3 этапа: 2 фазы претрейна и 1 файнтюнинг. Что интересно, у модели прокачаны и способности к рассуждениям (thinking mode inside💪).

📍Интересная фишка — Next Group of Token Prediction подход, при котором модель учат предсказывать группу текстовых или визуальных токенов в целях повышения скорости и компрессии.

👉Статья
👉Hugging Face

P.S. Обязательно изучаем и дружим с Cursor😉
Хочу познакомить вас со своим другом, Артёмом Арюткиным, руководителем продуктового офиса, который делает платформу для разработчиков в Яндексе.

На своём канале Артём рассказывает о построении масштабируемых сервисов, обеспечивающих надёжность работы для миллионов пользователей, о современных методиках управления продуктом и принципах эффективной коммуникации:

🔹 как решать проблемы
🔹 какие вопросы задавать нанимающему менеджеру
🔹 как гарантированно выгореть (лучше не надо!)
🔹 нужно ли продакту уметь в техничку

Подписывайтесь и исследуйте мир редких зверей — technical product manager’ов 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Внимание, AI-энтузиасты! 🔥

Ребята из нашей лаборатории FusionBrain запускают несколько топовых исследовательских проектов в рамках конкурса научных проектов МГУ! Если мечтаешь вкатиться в AI Research, прокачать свои навыки и поработать над крутыми задачами — это твой шанс!

📢 Темы исследований:
- Text-to-Image/Video Diffusion Models
- Large Language Models (LLM)
- Vision-Language Models (VLM)
- 3D perception/reconstruction


👩‍💻 Кто может участвовать?
Студенты и выпускники технических вузов, готовые погрузиться в мир передовых технологий и внести свой вклад в развитие науки.

📌 Как принять участие?

1. Заходи на сайт: ссылка
2. Выбирай проект, который тебе по душе
3. Заполняй анкету с сайта
4. Отправляй заявку на почту: [email protected]


📅 Дедлайн: до 23:59 (МСК) 26 мая 2025 года.


Не упускай возможность — вливайся в мир AI, работай с крутыми задачами и прокачивайся вместе с нами! 🔥
Forwarded from RnD CV Team (Alexander Kapitanov)
Data Fest в Сбере 🏦 🦜

30 мая Data Fest 2025 придёт в гости в штаб-квартиру на Кутузовском проспекте.

🧠 Открывает главную сцену Иван Оселедец @Ivan_Oseledets с докладом "Большие языковые модели в эпоху ризонинга"
🎨 Следом выступит Александр Капитанов @rndcv_team с релизом state-of-the-art модели инструктивного редактирования изображений MALVINA, над которой активно трудилась команда @layercv
😎 Также будет представлен доклад Федора Минькина @gigadev_channel о разработке больших языковых моделей в Сбере
🛠 Андрей Кузнецов @complete_ai выступит с интересной темой про генеративное проектирование в строительстве и промышленности
🧑‍💻 Дмитрий Бабаев @dl_l_lb представит подробный доклад о том, как команда обучает GigaCode

🤖 Сергей Марков @oulenspiegel_channel открывает сцену с визионерским докладом про ИИ в эпоху больших языковых моделей
🧠 Александр Абрамов @dealerAI расскажет про глобальную память в LLM на примере GigaChat
📝 Никита Мартынов и Даниил Астафуров, инженеры MERA покажут, как оценивать генеративные способности LLM для русского языка
🖥 Виктория Вольф @rndcv_team поделится лайфхаками обработки и фильтрации больших объемов мультимодальных данных.

И это еще не все, в программе представлено более 20 крутых докладов!
🖥 Зарегистрироваться и узнать подробности можно на сайте
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня коллеги из Сбера зарелизили технологию инструктивного редактирования — Malvina⚡️

Наша лаборатория FusionBrain принимала активное участие в проекте. Мы сосредоточились на исследованиях и разработке новых архитектурных решений для базовой модели. Цель — повысить эффективность модели и улучшить качество итогового редактирования🔝

Результаты в комментариях, а подробнее читайте тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Супер интересный доклад про ризонинг от @Ivan_Oseledets
Делюсь своей победой 🌟

Я стал лауреатом Премии Посла Китая. Премия учреждена РосСНИО и Посольством Китая по инициативе Чрезвычайного и Полномочного Посла КНР Чжан Ханьхуэя и ежегодно поддерживает выдающихся российских специалистов.

Вместе с остальными лауреатами я поеду в КНР посетить научно-исследовательские учреждения для обмена опытом с китайскими коллегами.

Благодарен за такую возможность, это большая честь для меня!
Please open Telegram to view this post
VIEW IN TELEGRAM
Уже привычно: крупная трансляция на @okkosport — сайт лежит намертво, а там уже 1:0. Спасибо🤝
Первый выпуск второго сезона подкаста "Фичи Катятся"!

Дима Бугайченко — CDS B2C в Сбере. Мы познакомились в Минске, где выступали на митапе по рекомендательным системам. Мне понравился его доклад, а после, на афтерпати, несколько часов обсуждали машинное обучение и мультиагентные системы. Тогда я подумал: “Блин, я бы с ним поработал”. И вот, спустя почти два года — мы коллеги. Именно видосом с Димой я открываю второй сезон подкаста “Фичи Катятся”.

В этом видео мы обсудим:
- Как понять искусственный интеллект через призму натурального: ключевые принципы и их значение для разработчиков.
- Эволюция ИИ: от древних автоматов до генеративных моделей и трансформеров.
- Мультиагентные системы: как они работают, где применяются (логистика, умные дома, марсианские роверы) и почему 2025 год астрологи объявили годом агентов.
- Рекомендательные системы: их роль в продуктах, вызовы приватности и пузыри мнений.
- Теория игр и эмерджентность: как мультиагентные системы балансируют интересы бизнеса и пользователей.
- Будущее развитие применения ИИ: как технологии изменят бизнес, организации и нашу повседневную жизнь.
- Будущее ИИ и сильный искусственный интеллект (AGI): что ждет IT, продукты и общество, и как разработчикам к этому подготовиться.

Этот выпуск для тех, кто хочет глубже понять, как мы оказались в глобальной AI трансформации, какие изменения нас ждут в айти, бизнесе, продуктах, обществе, и как разработчикам, тимлидам и CTO использовать эти технологии для создания продуктов будущего.

https://youtu.be/QKt2BlKUwpk
ВК, Rutube, Spotify, Apple Podcasts, Яндекс.Музыка

Лайк, шер! Ты знаешь, с кем поделиться этим выпуском!
Forwarded from Китай.AI
🔥 Интернет-королева возвращается: 340 страниц об AI, которые взорвали Кремниевую долину

Легендарный аналитик Мэри Микер, автор культовых отчетов о трендах интернета, спустя 6 лет выпустила новый масштабный доклад — на этот раз об искусственном интеллекте. 340 страниц данных, прогнозов и провокационных выводов.

Главный вывод: ИИ-революция уже необратима, и мы находимся в точке "сингулярности".

📌 Основные тезисы:
- AI-революция необратима: В отчете 51 раз встречается слово "беспрецедентный"
- Китайские модели дешевле в 500 раз (ERNIE 4.5 Turbo vs GPT-4.5)
- Индия — неожиданный лидер по числу пользователей ChatGPT (13.5% от мирового трафика)

💸 Пузырь OpenAI?
Микер прямо называет оценку компании ($300B) "сильно завышенной":
→ Выручка OpenAI: $9.2B/год
→ Оценка/Выручка = 33x (у Perplexity — 75x!)

🔧 Технические детали
• Стоимость инференса упала на 99.7% за 2 года
• Энергопотребление Blackwell GPU в 105 000 раз ниже аналогов 2014 года
• DeepSeek-R1 почти догнал OpenAI (93% vs 95% в MATH Level 5)

🌐 Главный тренд будущего
Следующие 1 миллиард пользователей пропустят этап приложений и сразу перейдут к AI-ассистентам через голосовые интерфейсы — особенно в регионах с низким интернет-покрытием.

🔮Вывод: "Нынешние лидеры ИИ могут повторить судьбу AltaVista. Единственное, что точно известно — мы в начале нового суперцикла технологий."

Полный отчет: BOND Capital AI Report 2025
Краткий обзор в китайской статье

#КитайскийИИ #КитайAI #ИИтренды #OpenAI #TechАналитика
Forwarded from Vikhr models
Нашу статью приняли на Slavic Natural Language Processing Workshop на А* конференции ACL!
Скоро выложим на архив.
Встретился на днях с руководителем направления отдела исследований и разработки в области искусственного интеллекта ПИК, Артуром Ишмаевым.

Мы обсудили возможные форматы сотрудничества и инициативы с использованием технологий генеративного проектирования, обменялись мыслями и практическим опытом!

✔️Буду рассказывать вам о совместных проектах!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from СберСтартап
Почти Last call 🚀

Мы на финальной стадии набора в шестой батч Sber500 — и особенно ждем AI-first и DeepTech-команды.

В первом квартале 2025 года на AI-стартапы пришлось более половины всех венчурных инвестиций в мире. Спрогнозируем итоги второго квартала сами?

Приходите в акселератор, если:

▪️ ищете доступ к инвесторам и корпорациям
▪️ хотите масштабироваться с помощью международных экспертов
▪️ готовы заявить о себе на широкую аудиторию и стать частью сообщества сильных основателей

Подавайте заявку в Sber500 до 9 июня по ссылке.

Программа на английском. Участие бесплатное 🔥

@sberstartup
Please open Telegram to view this post
VIEW IN TELEGRAM
В 01:15 с четверга на пятницу на телеканале НТВ выйдет в эфир передача «Мы и наука. Наука и мы» — «Через 10 лет искусственный интеллект обретёт эмоции» с моим участием.

Увидимся на экране! Позже по ссылке можно будет найти запись, а здесь — увидеть программу в прямом эфире.
🇵🇹🎉
⚡️⚡️⚡️На прошлой неделе мы в AIRI зарелизили очень крутую работу в рамках трека «Генеративное проектирование» — cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning

Архитектура представляет собой мультимодальную LLM, которая на вход может принимать облака точек, изображения и текст, а на выходе генерировать код операций, восстанавливающих некоторый CAD объект (например, какую-то инженерную деталь). То есть мы одновременно решаем задачу понимания сложных модальностей и задачу синтеза последовательности операций, необходимых для её восстановления по фото и облаку точек.

В дополнение добавили несколько вариантов онлайн RL (DPO и Dr. CPPO), что позволило значительно улучшить метрики и выбить SoTA на самых известных бенчмарках по восстановлению CAD моделей: DeepCAD, Fusion360 и CC3D💪

📍Статья — https://arxiv.org/abs/2505.22914
📍GitHub
📍
Hugging Face
📍
На Papers With Code уверенная SoTA на DeepCAD бенчмарке

Буду очень рад обратной связи и предложениям по развитию, тестированию и будущему внедрению!

P.S. На прошедшем 30 мая DataFest’е в Сбере я рассказал подробно про наши исследования в области генеративного проектирования и кратко о модели, что вызвало большой интерес у представителей промышленности. Поэтому если вы ещё не слышали про cadrille, то обязательно расскажите своему другу - инженеру, ему особенно понравится😉

@complete_ai
2025/06/11 13:05:08
Back to Top
HTML Embed Code: