Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Это GigaChat
Друзья, несколько месяцев мы экспериментировали с инструктивным обучением и потихоньку начинаем делиться нашими наработками в области ChatGPT-подобных моделей.
🔸 Сегодня мы хотим анонсировать наше творение, которое было решено назвать GigaChat, а модели в его основе — NeONKA.
🔸 Текущая версия основана на претрейне ruGPT3.5 13B + SFT (supervised fine-tuning).
🔸 В side by side тестах GigaChat vs ChatGPT (когда разметчики выбирают предпочтительный вариант) результат — 30:70 в пользу последней (начинали с 3 против 97).
🔸 Детали "Неонки" мы будем потихоньку выкладывать в открытый доступ, чтобы сообщество могло самостоятельно тренировать подобные модели.
👉 Хабр
Друзья, несколько месяцев мы экспериментировали с инструктивным обучением и потихоньку начинаем делиться нашими наработками в области ChatGPT-подобных моделей.
🔸 Сегодня мы хотим анонсировать наше творение, которое было решено назвать GigaChat, а модели в его основе — NeONKA.
🔸 Текущая версия основана на претрейне ruGPT3.5 13B + SFT (supervised fine-tuning).
🔸 В side by side тестах GigaChat vs ChatGPT (когда разметчики выбирают предпочтительный вариант) результат — 30:70 в пользу последней (начинали с 3 против 97).
🔸 Детали "Неонки" мы будем потихоньку выкладывать в открытый доступ, чтобы сообщество могло самостоятельно тренировать подобные модели.
👉 Хабр
Хабр
Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера
Дракончик ждёт вас ниже Хайп вокруг нейросетей, выровненных при помощи инструкций и человеческой оценки (известных в народе под единым брендом «ChatGPT»), трудно не заметить. Люди разных профессий и...
❤7👍4🔥4🤗2
🦌 RUDOLPH 🦌
Наконец-то дошли руки написать о нашей давней разработке, о модели RUDOLPH (RUssian Decoder On Language Picture Hyper-tasking), которая умеет решать много задач в модальностях текст и изображение и которая уже успела побывать бейзлайном соревнования FusionBrain Challenge 2.0 в 2022 году (и даже заняла там почётное третье место).
💡 Архитектурно модель представляет собой декодер-блок трансформера, работающий с входной последовательностью токенов, которую можно условно разделить на три основных сегмента: левые текстовые токены, токены изображения и правые текстовые токены. За счёт этого на претрейне можно показывать модели сэмплы по 3 задачам: text2image (генерация изображения по тексту), image2text (описание изображения) и text2text (языковое моделирование в левых текстовых токенах).
💡 Мы обучили 4 версии модели, которые различаются между собой как количеством параметров (соответственно, количеством и размером скрытых слоёв), так и соотношением количества токенов текста и изображения:
👉 RUDOLPH-350M
👉 RUDOLPH-1.3B
👉 RUDOLPH-2.7B
👉 RUDOLPH-2.7B-FBC2
💡 Последняя из этих моделей была дополнительно дообучена на инструктивном датасете (когда это ещё не стало мейнстримом 😊) решать 6 прикладных задач в модальностях текст и изображение: Text QA, Math QA, Image Generation, Image Captioning, Visual QA, Text Recognition in the Wild. RUDOLPH даже немного умеет в zero-shot object detection (после соответствующего файнтюна). Фишка этой версии модели также и в том, что она может понимать формулировку задачи на естественном (русском) языке 💪
Подробнее почитать про архитектуру RUDOLPH, узнать детали обучения и файнтюнинга, посмотреть примеры работы модели можно тут:
👉 Хабр
Воспользоваться и протестировать RUDOLPH можно тут:
👉 GitHub
👉 HuggingFace
👉 Cloud
В создании и обучении RUDOLPH успели принять участие многие ребята (@AShonenkov, @lizagonch - вам отдельное спасибо 👍, @kuznetsoff87, @bra_ket, @NastyaMittseva, @bom_bo0m👌). Всем огромное спасибо за крутую и качественную работу!
@dendi_math_ai
Наконец-то дошли руки написать о нашей давней разработке, о модели RUDOLPH (RUssian Decoder On Language Picture Hyper-tasking), которая умеет решать много задач в модальностях текст и изображение и которая уже успела побывать бейзлайном соревнования FusionBrain Challenge 2.0 в 2022 году (и даже заняла там почётное третье место).
💡 Архитектурно модель представляет собой декодер-блок трансформера, работающий с входной последовательностью токенов, которую можно условно разделить на три основных сегмента: левые текстовые токены, токены изображения и правые текстовые токены. За счёт этого на претрейне можно показывать модели сэмплы по 3 задачам: text2image (генерация изображения по тексту), image2text (описание изображения) и text2text (языковое моделирование в левых текстовых токенах).
💡 Мы обучили 4 версии модели, которые различаются между собой как количеством параметров (соответственно, количеством и размером скрытых слоёв), так и соотношением количества токенов текста и изображения:
👉 RUDOLPH-350M
👉 RUDOLPH-1.3B
👉 RUDOLPH-2.7B
👉 RUDOLPH-2.7B-FBC2
💡 Последняя из этих моделей была дополнительно дообучена на инструктивном датасете (когда это ещё не стало мейнстримом 😊) решать 6 прикладных задач в модальностях текст и изображение: Text QA, Math QA, Image Generation, Image Captioning, Visual QA, Text Recognition in the Wild. RUDOLPH даже немного умеет в zero-shot object detection (после соответствующего файнтюна). Фишка этой версии модели также и в том, что она может понимать формулировку задачи на естественном (русском) языке 💪
Подробнее почитать про архитектуру RUDOLPH, узнать детали обучения и файнтюнинга, посмотреть примеры работы модели можно тут:
👉 Хабр
Воспользоваться и протестировать RUDOLPH можно тут:
👉 GitHub
👉 HuggingFace
👉 Cloud
В создании и обучении RUDOLPH успели принять участие многие ребята (@AShonenkov, @lizagonch - вам отдельное спасибо 👍, @kuznetsoff87, @bra_ket, @NastyaMittseva, @bom_bo0m👌). Всем огромное спасибо за крутую и качественную работу!
@dendi_math_ai
Хабр
RUDOLPH: освещая дорогу к AGI
Как можно описать последние два года в области машинного обучения и искусственного интеллекта? Пожалуй, подойдет словосочетание «расцвет генеративных моделей». Причём работающих в разных модальностях....
🔥16👍8❤🔥5❤3👏2
Всем привет!
Наконец-то возвращаюсь с новостями 🙂
В следующую среду в рамках научного семинара AIRI буду рассказывать про синтез видео по текстам на естественном языке (text-to-video), одну из самых сложных (и в то же время активно исследуемых) задач направления Generative AI, а также про подходы к решению этой задачи на основе диффузии. В том числе поговорим и про наши исследования, обсудим архитектуру Kandinsky Video. Приходите послушать - всех буду рад видеть (в том числе и онлайн, подробности ниже).
Заодно поздравляю вас, дорогие подписчики, с Днём науки!
Наконец-то возвращаюсь с новостями 🙂
В следующую среду в рамках научного семинара AIRI буду рассказывать про синтез видео по текстам на естественном языке (text-to-video), одну из самых сложных (и в то же время активно исследуемых) задач направления Generative AI, а также про подходы к решению этой задачи на основе диффузии. В том числе поговорим и про наши исследования, обсудим архитектуру Kandinsky Video. Приходите послушать - всех буду рад видеть (в том числе и онлайн, подробности ниже).
Заодно поздравляю вас, дорогие подписчики, с Днём науки!
❤15🤩4👏3
Forwarded from Институт AIRI
На связи #AIRIseminars, рассказываем про следующий научный семинар, который пройдет через неделю ⤵
⚫ Дата и время: 14 февраля в 17:00
⚫ Тема: «Диффузионные методы генерации видео по тексту», подробное описание доклада тут
⚫ Докладчик: Денис Димитров, Sber AI, AIRI
⚫ Оппонент: Антон Конушин, Samsung Research, ВМК МГУ
📌 Если вы хотите посетить семинар офлайн — регистрация на сайте. Онлайн-формат, как всегда, на нашем YouTube-канале.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥7👏3
🥳 Kandinsky 3.1 🥳
Вчера прошёл ровно год с момента релиза модели Kandinsky 2.1 — именно эта модель принесла известность нашей исследовательской группе Sber AI Research и дала толчок развитию всей линейки моделей Kandinsky.
В честь этой даты мы представили модель Kandinsky 3.1 — идейное продолжение модели Kandinsky 3.0, которую мы улучшили и обогатили набором различных полезных функций и режимов. Все они предоставляют пользователям больше возможностей полноценно использовать всю силу нашей новой модели. Это:
💡значительное ускорение модели, которое было достигнуто за счёт дистилляции по числу шагов диффузии (версия Kandinsky 3.0 Flash);
💡улучшение промпта с помощью языковой модели (Mistral-7B);
💡 IP-Adapter, который позволяет дополнительно (помимо текста) обуславливаться на изображение; за счёт этого удалось вернуть режимы смешивания изображений, изображения и текста, которые были в версиях Kandinsky 2.X, но работали там за счёт наличия в этих моделях специального блока image prior;
💡ControlNet — механика, реализующая способы дополнительного контроля за генерацией на основе canny edges, depth maps и т. д.;
💡Inpainting — модификация основной модели, решающая задачу дорисования по тексту недостающих частей изображения (так, в новой версии значительно улучшилась работа с отдельными объектами разных размеров);
💡SuperRes — специальная диффузионная модель, повышающая разрешение изображения (так, в Kandinsky 3.1 теперь можно генерировать 4K изображения).
Полезные ссылки:
👉 Хабр
👉 Project Page
👉 GitHub
Пока что Kandinsky 3.1 доступен для ограниченного круга пользователей. Но в самое ближайшее время все смогут оценить новую версию в официальном боте Kandinsky, на сайте fusionbrain.ai и rudalle.ru (обязательно напишу об этом моменте отдельно).
@dendi_math_ai
Вчера прошёл ровно год с момента релиза модели Kandinsky 2.1 — именно эта модель принесла известность нашей исследовательской группе Sber AI Research и дала толчок развитию всей линейки моделей Kandinsky.
В честь этой даты мы представили модель Kandinsky 3.1 — идейное продолжение модели Kandinsky 3.0, которую мы улучшили и обогатили набором различных полезных функций и режимов. Все они предоставляют пользователям больше возможностей полноценно использовать всю силу нашей новой модели. Это:
💡значительное ускорение модели, которое было достигнуто за счёт дистилляции по числу шагов диффузии (версия Kandinsky 3.0 Flash);
💡улучшение промпта с помощью языковой модели (Mistral-7B);
💡 IP-Adapter, который позволяет дополнительно (помимо текста) обуславливаться на изображение; за счёт этого удалось вернуть режимы смешивания изображений, изображения и текста, которые были в версиях Kandinsky 2.X, но работали там за счёт наличия в этих моделях специального блока image prior;
💡ControlNet — механика, реализующая способы дополнительного контроля за генерацией на основе canny edges, depth maps и т. д.;
💡Inpainting — модификация основной модели, решающая задачу дорисования по тексту недостающих частей изображения (так, в новой версии значительно улучшилась работа с отдельными объектами разных размеров);
💡SuperRes — специальная диффузионная модель, повышающая разрешение изображения (так, в Kandinsky 3.1 теперь можно генерировать 4K изображения).
Полезные ссылки:
👉 Хабр
👉 Project Page
👉 GitHub
Пока что Kandinsky 3.1 доступен для ограниченного круга пользователей. Но в самое ближайшее время все смогут оценить новую версию в официальном боте Kandinsky, на сайте fusionbrain.ai и rudalle.ru (обязательно напишу об этом моменте отдельно).
@dendi_math_ai
🔥28👍3😍3❤1👏1😁1👌1
Сегодня мы зарелизили и выложили в open source новую версию нашей мультимодальной модели OmniFusion 1.1 (работает с изображениями и текстами) 🔥
Подробности ниже:
Подробности ниже:
🔥13👍2👌2