Коллеги из Сбера опубликовали на Хабре кейс: «Как мы научили GigaChat слышать».
Из главного, для повышения качества распознавания перешли на end-to-end архитектуру вместо связки ASR + LLM. И если раньше голосовой запрос шёл через распознавание речи и преобразование в текст, то сейчас GigaChat Audio сразу распознаёт речь. В side-by-side сравнении на 1200 диалогах набрал 0,68 против 0,32 у прежней схемы. Вместе с этим увеличилась и длительность контекста до 170 минут аудио в одном запросе.
Новый GigaChat Audio достиг уровня GPT-4o. Субъективная оценка диалоговых возможностей на русском языке состояла из семи критериев: общее впечатление, красота, грамотность, следование system, контекстность, полезность и фактология.
Протестировать слух нейросети уже можно в веб-версии giga.chat и в боте @gigachat_bot.
Из главного, для повышения качества распознавания перешли на end-to-end архитектуру вместо связки ASR + LLM. И если раньше голосовой запрос шёл через распознавание речи и преобразование в текст, то сейчас GigaChat Audio сразу распознаёт речь. В side-by-side сравнении на 1200 диалогах набрал 0,68 против 0,32 у прежней схемы. Вместе с этим увеличилась и длительность контекста до 170 минут аудио в одном запросе.
Новый GigaChat Audio достиг уровня GPT-4o. Субъективная оценка диалоговых возможностей на русском языке состояла из семи критериев: общее впечатление, красота, грамотность, следование system, контекстность, полезность и фактология.
Протестировать слух нейросети уже можно в веб-версии giga.chat и в боте @gigachat_bot.
Мы с командой делали сервис по реставрации и колоризации фотографий для Бессмертного полка💪
Поэтому, если у вас есть фото ваших героев, то можете внести их вместе с краткой информацией до 6 мая на сайте👇
https://2025.polkrf.ru/
Фото дедушки получилось очень красивым!
Поэтому, если у вас есть фото ваших героев, то можете внести их вместе с краткой информацией до 6 мая на сайте👇
https://2025.polkrf.ru/
Фото дедушки получилось очень красивым!
Коллеги из Сбера ищут человека, который будет организовывать и проводить хакатоны по искусственному интеллекту в онлайн и оффлайн форматах 👋
Кандидат будет управлять всеми этапами подготовки мероприятия — от разработки концепции и привлечения участников до контроля качества исполнения и анализа результатов.
Что предстоит:
☑️ Разработка концепций и реализация хакатонов
☑️ Подбор и координация команд разработчиков
☑️ Юридическое сопровождение и подготовка документов
☑️ Запуск рекламы
☑️ Организация церемоний награждения, анализ обратной связи
Что ждут от кандидата:
☑️ Опыт проектной деятельности и организации мероприятий
☑️ Понимание правовых норм и опыт работы с документацией
☑️ Коммуникабельность и умение вести переговоры
☑️ Хорошее знание инструментов и методов управления проектами (Agile/Scrum)
☑️ Английский язык для общения и понимания технических материалов
☑️ Желательны базовые знания AI и ML
Присылайте резюме @vladalogunova и приходите делать крутые проекты в Сбере вместе😼
Кандидат будет управлять всеми этапами подготовки мероприятия — от разработки концепции и привлечения участников до контроля качества исполнения и анализа результатов.
Что предстоит:
Что ждут от кандидата:
Присылайте резюме @vladalogunova и приходите делать крутые проекты в Сбере вместе
Please open Telegram to view this post
VIEW IN TELEGRAM
2025 год. Международная конференция NAACL 2025. Место проведения — Альбукерке, США. Представление работы, когда никому из авторов не дали визу🤪
Пояснение: это некоторая виртуальная площадка как в онлайн стратегии, где ты ходишь между постерами и можешь к любому подойти, рассмотреть его и собственно поговорить с презентующим о его исследовании или просто посмотреть постер.
Так и живём😉
Пояснение: это некоторая виртуальная площадка как в онлайн стратегии, где ты ходишь между постерами и можешь к любому подойти, рассмотреть его и собственно поговорить с презентующим о его исследовании или просто посмотреть постер.
Так и живём😉
⚡️Sakana AI продолжает свой путь в развитии bio inspired архитектур нейронных сетей. Свежий утренний релиз нового типа моделей - Continuous Thought Machine
Ключевой особенностью новой архитектуры - механизм синхронизации нейронов, где каждый нейрон - это набор весов или мини-нейронка со своей памятью состояний. Как результат - говорят о росте способности к рассуждениям или reasoning, что сейчас является очень важным направлением развития фундаментальных моделей.
Детально тут👇
Paper: https://pub.sakana.ai/ctm/
GitHub: https://github.com/SakanaAI/continuous-thought-machines
@complete_ai
Ключевой особенностью новой архитектуры - механизм синхронизации нейронов, где каждый нейрон - это набор весов или мини-нейронка со своей памятью состояний. Как результат - говорят о росте способности к рассуждениям или reasoning, что сейчас является очень важным направлением развития фундаментальных моделей.
Детально тут👇
Paper: https://pub.sakana.ai/ctm/
GitHub: https://github.com/SakanaAI/continuous-thought-machines
@complete_ai
Приглашаю вас на мое выступление на Data Fest в Сбере 30 мая ✨
Будем говорить про генеративное проектирование в архитектуре, новые горизонты возможностей для творчества и инженерии🤖
Подключайтесь к онлайн-трансляции в сообществе Сбера в VK или приходите на мероприятие, если вы в Москве!
Чтобы прийти очно, необходимо зарегистрироваться➡️ вот тут
Будем говорить про генеративное проектирование в архитектуре, новые горизонты возможностей для творчества и инженерии
Подключайтесь к онлайн-трансляции в сообществе Сбера в VK или приходите на мероприятие, если вы в Москве!
Чтобы прийти очно, необходимо зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
Стал доступен первый российский AI-сервис для создания 3D-моделей — Kandinsky 3D 🚀
За считанные минуты сервис генерирует детализированные 3D-объекты по текстовым описаниям или входным изображениям. На выбор несколько поддерживаемых форматов: STL, OBJ, FBX, GLB и USDZ.
Kandinsky 3D также поможет оптимизировать процессы генеративного проектирования и промышленного дизайна. Нейросеть создаёт полигональные модели, совместимые с профессиональными системами автоматизированного проектирования (САПР).
Протестировать модель можно здесь, подключить API здесь.
👉Habr
За считанные минуты сервис генерирует детализированные 3D-объекты по текстовым описаниям или входным изображениям. На выбор несколько поддерживаемых форматов: STL, OBJ, FBX, GLB и USDZ.
Kandinsky 3D также поможет оптимизировать процессы генеративного проектирования и промышленного дизайна. Нейросеть создаёт полигональные модели, совместимые с профессиональными системами автоматизированного проектирования (САПР).
Протестировать модель можно здесь, подключить API здесь.
👉Habr
Please open Telegram to view this post
VIEW IN TELEGRAM
Эта неделя насыщена деловыми поездками, делюсь с вами.
📌 Первый пункт назначения был вчера — международная конференция IEEE USBEREIT 2025 в Екатеринбурге. Целью конференции являлось объединение исследователей и практиков из различных областей науки, включая радиоэлектронику, информационные технологии, биомедицинскую инженерию и другие.
Я выступал с докладом по генеративному проектированию в области строительства и промышленного производства. Это направление активно развивается в рамках деятельности лаборатории FusionBrain и вызывает интерес как у научного сообщества, так и у представителей бизнеса. После доклада присоединился в качестве эксперта к круглому столу про применение и развитие современных технологий ИИ в образовании.
📌 Следующая остановка — Казань!
Я выступал с докладом по генеративному проектированию в области строительства и промышленного производства. Это направление активно развивается в рамках деятельности лаборатории FusionBrain и вызывает интерес как у научного сообщества, так и у представителей бизнеса. После доклада присоединился в качестве эксперта к круглому столу про применение и развитие современных технологий ИИ в образовании.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Вместе с Университетом Иннополис мы запустили новую лабораторию мультимодального генеративного ИИ!
Сегодня, на XVI Международном экономическом форуме «Россия — Исламский мир: KazanForum», состоялось подписание соглашения заместителем директора по развитию цифровых проектов российского ИТ-вуза Алексеем Павловым и генеральным директором Института AIRI Иваном Оселедцем.
Мне выпала честь возглавить новую лабораторию. Вместе с Директором Института ИИ Университета Иннополис Рамилем Кулеевым будем заниматься сведением ресерч инициатив лаборатории и продуктовых запросов от бизнеса с прицелом на повышение качества, а также поиском новых решений с помощью мультимодальных моделей. Задачи новой лаборатории связаны с треками лаборатории FusionBrain в AIRI, что усилит научные проекты и повысит эффективность команд.
Начало положено
⚠️Важная информация⚠️
Если вы студент, аспирант, постдок Иннополиса с опытом работы с языковыми, мультимодальными моделями, увлечены темой генеративного ИИ, присылайте мне @kuznetsoff87 своё резюме!
Please open Telegram to view this post
VIEW IN TELEGRAM
Вместе с коллегами из TRASSIR успешно завершили первый этап исследования возможностей мультимодальных моделей в задачах видеоаналитики📷
Основная цель проекта — создание системы, способной эффективно выявлять случаи краж товаров в торговых точках с минимизацией ошибок. Мы использовали мультимодальные модели, работающие в zero-shot-режиме, чтобы снизить количество ложных тревог и повысить точность выявления подозрительных ситуаций без специального дообучения модели.
Улучшения:
⚫️ Механизмы рассуждения, позволяющие лучше распознавать сложные действия (например, "взятие+возврат" товара)
⚫️ Детализация эпизодов интереса для более точного анализа коротких событий
⚫️ Поддержка потокового видео с учётом длинного временного контекста
➡️ Будущие проекты предусматривают использование мультимодальных моделей для оценки соблюдения стандартов общепита: анализ аудио на предмет соблюдения речевых скриптов персоналом, контроль за соблюдением санитарных норм, детекцию нарушений, связанных с условиями допродаж и чистотой помещений.
Основная цель проекта — создание системы, способной эффективно выявлять случаи краж товаров в торговых точках с минимизацией ошибок. Мы использовали мультимодальные модели, работающие в zero-shot-режиме, чтобы снизить количество ложных тревог и повысить точность выявления подозрительных ситуаций без специального дообучения модели.
Улучшения:
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Вчера ByteDance выпустил новую супер модель Bagel, которая базируется да трансформере декодере и решает широкий спектр задач понимания и генерации мультимодальных данных (картинки, видео). Модель умеет как понимать разные модальности, так и генерировать их и вносить изменения (например, редактировать картинку по текстовой инструкции)
Архитектурно это MoE архитектура с двумя типами экспертов: Understanding и Generation. В опен сурс выложена 7B модель (7 млрд. активных параметров, всего их — 14 млрд.)
Модель обучена на нескольких триллионах токенов (отдельная часть исследования посвящена росту качества от увеличения числа токенов на обучении для визуальных генеративных задач), которые включают очень разнообразные задачи: от описания изображений до видеороликов, сопровождаемых траекториями движения. Также проработан механизм подробной фильтрации данных (UI removal, контроль разрешения и др.) Обучение проходит в 3 этапа: 2 фазы претрейна и 1 файнтюнинг. Что интересно, у модели прокачаны и способности к рассуждениям (thinking mode inside💪).
📍Интересная фишка — Next Group of Token Prediction подход, при котором модель учат предсказывать группу текстовых или визуальных токенов в целях повышения скорости и компрессии.
👉Статья
👉Hugging Face
P.S. Обязательно изучаем и дружим с Cursor😉
Архитектурно это MoE архитектура с двумя типами экспертов: Understanding и Generation. В опен сурс выложена 7B модель (7 млрд. активных параметров, всего их — 14 млрд.)
Модель обучена на нескольких триллионах токенов (отдельная часть исследования посвящена росту качества от увеличения числа токенов на обучении для визуальных генеративных задач), которые включают очень разнообразные задачи: от описания изображений до видеороликов, сопровождаемых траекториями движения. Также проработан механизм подробной фильтрации данных (UI removal, контроль разрешения и др.) Обучение проходит в 3 этапа: 2 фазы претрейна и 1 файнтюнинг. Что интересно, у модели прокачаны и способности к рассуждениям (thinking mode inside💪).
📍Интересная фишка — Next Group of Token Prediction подход, при котором модель учат предсказывать группу текстовых или визуальных токенов в целях повышения скорости и компрессии.
👉Статья
👉Hugging Face
P.S. Обязательно изучаем и дружим с Cursor😉
Хочу познакомить вас со своим другом, Артёмом Арюткиным, руководителем продуктового офиса, который делает платформу для разработчиков в Яндексе.
На своём канале Артём рассказывает о построении масштабируемых сервисов, обеспечивающих надёжность работы для миллионов пользователей, о современных методиках управления продуктом и принципах эффективной коммуникации:
🔹 как решать проблемы
🔹 какие вопросы задавать нанимающему менеджеру
🔹 как гарантированно выгореть (лучше не надо!)
🔹 нужно ли продакту уметь в техничку
Подписывайтесь и исследуйте мир редких зверей — technical product manager’ов😎
На своём канале Артём рассказывает о построении масштабируемых сервисов, обеспечивающих надёжность работы для миллионов пользователей, о современных методиках управления продуктом и принципах эффективной коммуникации:
🔹 как решать проблемы
🔹 какие вопросы задавать нанимающему менеджеру
🔹 как гарантированно выгореть (лучше не надо!)
🔹 нужно ли продакту уметь в техничку
Подписывайтесь и исследуйте мир редких зверей — technical product manager’ов
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Внимание, AI-энтузиасты! 🔥
Ребята из нашей лаборатории FusionBrain запускают несколько топовых исследовательских проектов в рамках конкурса научных проектов МГУ! Если мечтаешь вкатиться в AI Research, прокачать свои навыки и поработать над крутыми задачами — это твой шанс!
📢 Темы исследований:
- Text-to-Image/Video Diffusion Models
- Large Language Models (LLM)
- Vision-Language Models (VLM)
- 3D perception/reconstruction
👩💻 Кто может участвовать?
Студенты и выпускники технических вузов, готовые погрузиться в мир передовых технологий и внести свой вклад в развитие науки.
📌 Как принять участие?
1. Заходи на сайт: ссылка
2. Выбирай проект, который тебе по душе
3. Заполняй анкету с сайта
4. Отправляй заявку на почту: [email protected]
📅 Дедлайн: до 23:59 (МСК) 26 мая 2025 года.
Не упускай возможность — вливайся в мир AI, работай с крутыми задачами и прокачивайся вместе с нами! 🔥
Ребята из нашей лаборатории FusionBrain запускают несколько топовых исследовательских проектов в рамках конкурса научных проектов МГУ! Если мечтаешь вкатиться в AI Research, прокачать свои навыки и поработать над крутыми задачами — это твой шанс!
📢 Темы исследований:
- Text-to-Image/Video Diffusion Models
- Large Language Models (LLM)
- Vision-Language Models (VLM)
- 3D perception/reconstruction
👩💻 Кто может участвовать?
Студенты и выпускники технических вузов, готовые погрузиться в мир передовых технологий и внести свой вклад в развитие науки.
📌 Как принять участие?
1. Заходи на сайт: ссылка
2. Выбирай проект, который тебе по душе
3. Заполняй анкету с сайта
4. Отправляй заявку на почту: [email protected]
📅 Дедлайн: до 23:59 (МСК) 26 мая 2025 года.
Не упускай возможность — вливайся в мир AI, работай с крутыми задачами и прокачивайся вместе с нами! 🔥
Forwarded from RnD CV Team (Alexander Kapitanov)
Data Fest в Сбере 🏦 🦜
30 мая Data Fest 2025 придёт в гости в штаб-квартиру на Кутузовском проспекте.
🧠 Открывает главную сцену Иван Оселедец @Ivan_Oseledets с докладом "Большие языковые модели в эпоху ризонинга"
🎨 Следом выступит Александр Капитанов @rndcv_team с релизом state-of-the-art модели инструктивного редактирования изображений MALVINA, над которой активно трудилась команда @layercv
😎 Также будет представлен доклад Федора Минькина @gigadev_channel о разработке больших языковых моделей в Сбере
🛠 Андрей Кузнецов @complete_ai выступит с интересной темой про генеративное проектирование в строительстве и промышленности
🧑💻 Дмитрий Бабаев @dl_l_lb представит подробный доклад о том, как команда обучает GigaCode
🤖 Сергей Марков @oulenspiegel_channel открывает сцену с визионерским докладом про ИИ в эпоху больших языковых моделей
🧠 Александр Абрамов @dealerAI расскажет про глобальную память в LLM на примере GigaChat
📝 Никита Мартынов и Даниил Астафуров, инженеры MERA покажут, как оценивать генеративные способности LLM для русского языка
🖥 Виктория Вольф @rndcv_team поделится лайфхаками обработки и фильтрации больших объемов мультимодальных данных.
И это еще не все, в программе представлено более 20 крутых докладов!
🖥 Зарегистрироваться и узнать подробности можно на сайте
30 мая Data Fest 2025 придёт в гости в штаб-квартиру на Кутузовском проспекте.
🧠 Открывает главную сцену Иван Оселедец @Ivan_Oseledets с докладом "Большие языковые модели в эпоху ризонинга"
🎨 Следом выступит Александр Капитанов @rndcv_team с релизом state-of-the-art модели инструктивного редактирования изображений MALVINA, над которой активно трудилась команда @layercv
🛠 Андрей Кузнецов @complete_ai выступит с интересной темой про генеративное проектирование в строительстве и промышленности
🧑💻 Дмитрий Бабаев @dl_l_lb представит подробный доклад о том, как команда обучает GigaCode
🤖 Сергей Марков @oulenspiegel_channel открывает сцену с визионерским докладом про ИИ в эпоху больших языковых моделей
📝 Никита Мартынов и Даниил Астафуров, инженеры MERA покажут, как оценивать генеративные способности LLM для русского языка
И это еще не все, в программе представлено более 20 крутых докладов!
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня коллеги из Сбера зарелизили технологию инструктивного редактирования — Malvina⚡️
Наша лаборатория FusionBrain принимала активное участие в проекте. Мы сосредоточились на исследованиях и разработке новых архитектурных решений для базовой модели. Цель — повысить эффективность модели и улучшить качество итогового редактирования🔝
Результаты в комментариях, а подробнее читайте тут
Наша лаборатория FusionBrain принимала активное участие в проекте. Мы сосредоточились на исследованиях и разработке новых архитектурных решений для базовой модели. Цель — повысить эффективность модели и улучшить качество итогового редактирования
Результаты в комментариях, а подробнее читайте тут
Please open Telegram to view this post
VIEW IN TELEGRAM