Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
15 - Telegram Web
Telegram Web
Channel created
Channel name was changed to «Dendi Math&AI»
Channel photo updated
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Это GigaChat

Друзья, несколько месяцев мы экспериментировали с инструктивным обучением и потихоньку начинаем делиться нашими наработками в области ChatGPT-подобных моделей.

🔸 Сегодня мы хотим анонсировать наше творение, которое было решено назвать GigaChat, а модели в его основе — NeONKA.

🔸 Текущая версия основана на претрейне ruGPT3.5 13B + SFT (supervised fine-tuning).

🔸 В side by side тестах GigaChat vs ChatGPT (когда разметчики выбирают предпочтительный вариант) результат — 30:70 в пользу последней (начинали с 3 против 97).

🔸 Детали "Неонки" мы будем потихоньку выкладывать в открытый доступ, чтобы сообщество могло самостоятельно тренировать подобные модели.

👉 Хабр
7👍4🔥4🤗2
🦌 RUDOLPH 🦌

Наконец-то дошли руки написать о нашей давней разработке, о модели RUDOLPH (RUssian Decoder On Language Picture Hyper-tasking), которая умеет решать много задач в модальностях текст и изображение и которая уже успела побывать бейзлайном соревнования FusionBrain Challenge 2.0 в 2022 году (и даже заняла там почётное третье место).

💡 Архитектурно модель представляет собой декодер-блок трансформера, работающий с входной последовательностью токенов, которую можно условно разделить на три основных сегмента: левые текстовые токены, токены изображения и правые текстовые токены. За счёт этого на претрейне можно показывать модели сэмплы по 3 задачам: text2image (генерация изображения по тексту), image2text (описание изображения) и text2text (языковое моделирование в левых текстовых токенах).

💡 Мы обучили 4 версии модели, которые различаются между собой как количеством параметров (соответственно, количеством и размером скрытых слоёв), так и соотношением количества токенов текста и изображения:
👉 RUDOLPH-350M
👉 RUDOLPH-1.3B
👉 RUDOLPH-2.7B
👉 RUDOLPH-2.7B-FBC2

💡 Последняя из этих моделей была дополнительно дообучена на инструктивном датасете (когда это ещё не стало мейнстримом 😊) решать 6 прикладных задач в модальностях текст и изображение: Text QA, Math QA, Image Generation, Image Captioning, Visual QA, Text Recognition in the Wild. RUDOLPH даже немного умеет в zero-shot object detection (после соответствующего файнтюна). Фишка этой версии модели также и в том, что она может понимать формулировку задачи на естественном (русском) языке 💪

Подробнее почитать про архитектуру RUDOLPH, узнать детали обучения и файнтюнинга, посмотреть примеры работы модели можно тут:
👉 Хабр

Воспользоваться и протестировать RUDOLPH можно тут:
👉 GitHub
👉 HuggingFace
👉 Cloud

В создании и обучении RUDOLPH успели принять участие многие ребята (@AShonenkov, @lizagonch - вам отдельное спасибо 👍, @kuznetsoff87, @bra_ket, @NastyaMittseva, @bom_bo0m👌). Всем огромное спасибо за крутую и качественную работу!

@dendi_math_ai
🔥16👍8❤‍🔥53👏2
Всем привет!

Наконец-то возвращаюсь с новостями 🙂

В следующую среду в рамках научного семинара AIRI буду рассказывать про синтез видео по текстам на естественном языке (text-to-video), одну из самых сложных (и в то же время активно исследуемых) задач направления Generative AI, а также про подходы к решению этой задачи на основе диффузии. В том числе поговорим и про наши исследования, обсудим архитектуру Kandinsky Video. Приходите послушать - всех буду рад видеть (в том числе и онлайн, подробности ниже).

Заодно поздравляю вас, дорогие подписчики, с Днём науки!
15🤩4👏3
Forwarded from Институт AIRI
На связи #AIRIseminars, рассказываем про следующий научный семинар, который пройдет через неделю

Дата и время: 14 февраля в 17:00

Тема: «Диффузионные методы генерации видео по тексту», подробное описание доклада тут

Докладчик: Денис Димитров, Sber AI, AIRI

Оппонент: Антон Конушин, Samsung Research, ВМК МГУ

📌Если вы хотите посетить семинар офлайн — регистрация на сайте. Онлайн-формат, как всегда, на нашем YouTube-канале.
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥7👏3
🥳 Kandinsky 3.1 🥳

Вчера прошёл ровно год с момента релиза модели Kandinsky 2.1 — именно эта модель принесла известность нашей исследовательской группе Sber AI Research и дала толчок развитию всей линейки моделей Kandinsky.

В честь этой даты мы представили модель Kandinsky 3.1 — идейное продолжение модели Kandinsky 3.0, которую мы улучшили и обогатили набором различных полезных функций и режимов. Все они предоставляют пользователям больше возможностей полноценно использовать всю силу нашей новой модели. Это:

💡значительное ускорение модели, которое было достигнуто за счёт дистилляции по числу шагов диффузии (версия Kandinsky 3.0 Flash);
💡улучшение промпта с помощью языковой модели (Mistral-7B);
💡 IP-Adapter, который позволяет дополнительно (помимо текста) обуславливаться на изображение; за счёт этого удалось вернуть режимы смешивания изображений, изображения и текста, которые были в версиях Kandinsky 2.X, но работали там за счёт наличия в этих моделях специального блока image prior;
💡ControlNet — механика, реализующая способы дополнительного контроля за генерацией на основе canny edges, depth maps и т. д.;
💡Inpainting — модификация основной модели, решающая задачу дорисования по тексту недостающих частей изображения (так, в новой версии значительно улучшилась работа с отдельными объектами разных размеров);
💡SuperRes — специальная диффузионная модель, повышающая разрешение изображения (так, в Kandinsky 3.1 теперь можно генерировать 4K изображения).

Полезные ссылки:
👉 Хабр
👉 Project Page
👉 GitHub

Пока что Kandinsky 3.1 доступен для ограниченного круга пользователей. Но в самое ближайшее время все смогут оценить новую версию в официальном боте Kandinsky, на сайте fusionbrain.ai и rudalle.ru (обязательно напишу об этом моменте отдельно).

@dendi_math_ai
🔥28👍3😍31👏1😁1👌1
Сегодня мы зарелизили и выложили в open source новую версию нашей мультимодальной модели OmniFusion 1.1 (работает с изображениями и текстами) 🔥

Подробности ниже:
🔥13👍2👌2
2025/10/15 20:58:05
Back to Top
HTML Embed Code: