Telegram Web
Forwarded from Complete AI (Andrey Kuznetsov)
⚡️⚡️⚡️Kandinsky 2.2 выходит в свет

Вот и наступил долгожданный знаменательный день, когда мы готовы порадовать комьюнити новой версией генеративной модели Kandinsky 2.2.

Не буду долго томить вас лирикой и историями, как мы маленькими шагами двигались к качественному скачку эти 3 месяца с момента релиза 2.1, а просто расскажу о ключевых нововведениях:
📌 разрешение генераций теперь достигло 1024 px
📌 генерировать можно с различным соотношением сторон (ура, конец монополии квадратных генераций!)
📌 изображения стали максимально близки к фотореалистичным
📌 у модели появилась возможность изменения частей изображения за счёт внедрения механики ControlNet (пока только на основе карты глубины)
📌 версии 2.1 и 2.2 встроены в самый большой и известный фреймворк генеративных моделей - Diffusers

⚡️В телеграм боте теперь 6 режимов:
1) генерация картинки по тексту
2) смешивание двух изображений
3) смешивание изображения и текста
4) создание вариаций входной картинки
5) локальные изменения с помощью ControlNet механики 💥
6) создание стикеров и стикерпаков по текстовым запросам 💥

Воспользоваться моделью можно тут:
Telegram bot
fusionbrain.ai
Diffusers
rudalle.ru
Салют

📕Почитать подробнее про Kandinsky 2.2 можно в новой статье на Хабре.

По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи😉

P.S. По неожиданной случайности сегодня еще День Фотографа, с чем всех причастных торжественно поздравляю📸 Такой вот подарок для сообщества от нашей команды🎉

@complete_ai
Forwarded from DL in NLP (Vlad Lialin)
Stack More Layers Differently: High-Rank Training Through Low-Rank Updates
Статья: arxiv.org/abs/2307.05695
Код: GitHub

Мы задались вопросом: если LoRA настолько хороша для файнтюнинга, можем ли мы применить её для претренинга?
Мы представляем ReLoRA — первый метод PEFT, который может использоваться для обучения с нуля! 🔥

Почему мы не можем использовать LoRA для претренинга? Потому что он оптимизирует только в маленьком подпространстве низкого ранга параметров модели. Этого достаточно для файнтюнинга, но не для претренинга. Что мы можем сделать?

Применить LoRA несколько раз подряд. Это работает, потому что параметры LoRA могут быть интегрированы в основную сеть (W += W_A @ W_B) и потому что сумма матриц низкого ранга может иметь ранг больше, ранги слагаемых.

Но теперь у нас новая проблема: оптимизаторы сильно полагаются на momentum который и определяет большую часть направления апдейта по предыдущим градиентам (а не текущему градиенту). Это делает шаги оптимизации сильно скоррелированными

Представьте первый шаг оптимизации после ресета ReLoRA. Он сделает параметры ReLoRA похожими на параметры предыдущей итерации. Это потенциально может "заполнить ранг" параметров LoRA и минимально увеличить суммарный ранг. Поэтому при ресете ReLoRA мы частично ресетим стейт оптимизатора сохраняя только 0-10% весов. Далее, чтобы избежать нестабильностей мы прогреваем LR 10-50 шагов

LayerNorm и эмбеддинги тренируются как обычно, без репараметризации. Наконец, ранняя фаза обучения очень важна, и нам действительно нужно "подогреть" сеть с помощью обычного полноценного обучения. На практике достаточно 3-5 тысяч шагов

TL;DR
1. LoRA + ресеты
1. Частичный сброс стейта оптимизатора
1. "Зубчатый" LR scheduler
1. Прогрев через обычную тренировку

На совсем маленьких сетках всё грустно, но начиная с 250M метод начинает работать близко к обычной тренировке. На 1B видим уменьшение потребления RAM и ускорение на 50%. Сейчас ищем компьют на тренировку 1B-модели

Буду рад ретвиту вот этого треда — продвигать статьи это довольно сложно 😅
#nlp #thoughts #insights

Что такое LLM?

Все мы знаем, что LLM - это большие нейронные сети обученные на задачу языкового моделирования.
Но на LLM можно посмотреть под другими углами и несколько таких взглядов я хочу раскрыть в этом посте. 👀

Один из взглядов, который я услышал недавно от одного профессора, заключается в том, что LLM - это распределенная ассоциативная база данных. Мне очень понравилась эта мысль и формулировка - пища для размышлений. Причем эта база с весьма необычным интерфейсом взаимодействия - под такой призмой prompt инженер становится никем иным, как специалистом по работе с БД, а сам prompt к LLM как SQL-запрос. 🙈

А что же из себя представляет обучение LLM?

Сейчас я уйду немного в сторону от предыдущего взгляда к некоторым своим мыслям.
Мне всегда нравилось смотреть на обучение LLM как на алгоритм сжатия данных.
И тут сразу появляется много вопросов:
1) А сжатие происходит с потерями или без?
2) А насколько эффективны существующие алгоритмы сжатия или мы можем добиться большей и лучшей компрессии?

Также логичным встает вопрос, а что из себя представляет RLHF в таких парадигмах? 🤔

Ответы на эти вопросы я оставлю открытыми, чтобы не давать свой bias и была возможность подумать самому, но если интересно, можем перебраться в комментарии и обсудить. 🧐

Всем хорошего дня ❤️

@cats_shredinger
Forwarded from эйай ньюз
🔥Meta зарелизила набор моделей LLaMa-2-Chat разного размера!

Это огромное событие в мире опенсоурса и науки. Коллеги из LLM отдела GenAI выпустили бомбу! LLaMa-2 на 70B параметров сравнима по качетству с GPT-3.5 и даже лучше ее на некоторых бенчмарках.

Это кстати первая модель такого размера, затюненая c помощью RLHF, и которую выложили для коммерческого использования БЕСПЛАТНО. Запросить ссылку на скачивание можно тут.

Наконец-то, на базе LLaMa-2-Chat можно ствроить свои аналоги ChatGPT и не отсылать никаких данных в OpenAI.

Llama 2-Chat сравнима по качеству с ChatGPT-3.5 по метрикам human eval, а на математических задачах - даже лучше.

Больше подробностей в статье

@ai_newz
Forwarded from NLP Core Team (Andrei Kalmykov)
⚡️ Замеры LLaMA 2 на MMLU

Вчера вышла LLaMA 2, нам было интересно качество претрейн-моделей в русском.

Качество на MMLU выросло в среднем на 7 пунктов, как в английском, так и в русском, у всей линейки претрейн-моделей. Семь пунктов на MMLU впечатляет!

При этом русского языка на претрейне LLaMA 2 было всего 0.13%.

Замеряли кодом который выкладывали ранее. Контекст оставляли 2048 чтобы влезало тоже число few-shot примеров (токенайзер в LLaMA 2 такой же как и был в LLaMA 1).

До чат-моделей пока не добрались, и до 34B пока нет к ней доступа.
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера

Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!

🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.

🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.

🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.

Написали небольшой пост про это, прошу поддержать, кому интересно.

👉 Хабр | Hugging Face
Forwarded from Complete AI (Andrey Kuznetsov)
⚡️Запускаем ruGPT-3.5 в Colab'е

Сообщество не дремлет и накидало в личку квантованных версий вышедшей вчера модели (ребята, вы молодцы 🚀).

Ужимали при помощи AutoGPTQ в 4bit, так же как делает TheBloke. Качество, само собой, при квантизации в 4bit проседает, но поиграться можно.

Еще ребята в комьюнити сделали версию в формате GPTQ.

Colab
Хабр
HF
GPTQ
#nlp

Друзья, всем привет!) 👋

GigaChat наконец-то доступен всем и каждому!) 🚀

Ссылка: тут
Пользовательское соглашение, ответы на вопросы и поддержка тут: @gigachat_helpbot

@cats_shredinger
Друзья, всем привет) 👋

Пропал примерно на месяц, навалилось очень много дел и работы, но вроде как сейчас должно стать попроще) 🙈

При этом за это время появилось много крутых собитий в сообществе, новые интересных статей, какие-то мои мысли, которыми хочется поделиться, поэтому все это скоро будет 🔥

А сейчас ближе к делу) 👇
В четверг 7 сентября будет проходить Practical ML Conf от Яндекса, на котором я выступаю с докладом "GigaChat: наш опыт обучения LLM" 🚀

Поговорим про большие языковые модели, их обучение, оценивание, tips and practices и многое другое 🔬

После официальной части будет афтепати, можно будет пообщаться и классно провести время, поэтому приходите, буду рад со всеми встретиться) ❤️
Друзья, всем хороших выходных) 🔥
2025/05/30 01:59:38
Back to Top
HTML Embed Code: