Telegram Web
Channel name was changed to «Мишин Лернинг 🇺🇦🇮🇱»
Вышел пайпер DALL•E 3

Латентные энкодеры,
Диффузионные декодеры,
Синтетические пары,
Эмбеддинги т5,
Обычные Юнэты,
Эвалы от GPT-V,
Clip скоры и отмена FID’а

ну почитать можно

📝 https://cdn.openai.com/papers/dall-e-3.pdf
Сэм Альтман, сооснователь и главный исполнительный директор CEO OpenAI, был уволен после того, как утратил доверие совета директоров. Это произошло на фоне роста влияния OpenAI в мире, особенно после релиза таких продуктов, как ChatGPT и GPT-4. В роли временного главы компании выступит Мира Мурати, ранее занимавшая должность главного технического директора CTO OpenAI.

Данный переход произошёл внезапно и вызвал значительный резонанс в среде технологических компаний и специалистов в области ИИ.
Stable Diffusion XL — Turbo. Text2Image в реальном времени

Stability AI представила SDXL Turbo — новаторскую модель генерации изображений из текста в реальном времени. Основываясь на технологии Adversarial Diffusion Distillation (ADD), SDXL Turbo достигает высочайшего качества, уменьшая количество необходимых шагов инференса с 50 до одного!

SDXL Turbo доступна для испытаний на платформе редактирования изображений Stability AI: Clipdrop, и пока предназначена только для некоммерческого использования.

https://youtu.be/adDyTzBdUcg?si=8NqucZ4y29IAHYNE

👉 https://stability.ai/news/stability-ai-sdxl-turbo
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Короче, мы выкатили диффузию в инстаграм для редактирования изображений, а именно - генерацию фона по тексту. Эта модель была анонсирована еще на Connect, но только сейчас ее выкатили в прод в США.

Загружаешь фото, вводишь любой пропмт, например, "преследуемый динозаврами" или "я в Париже", и получаешь несколько новых версий своей фотки.

Моделька основана на нашей text2image диффузии Emu и технологии по типу SAM, которая позволяет автоматически находить нужную маску.

Тут я говорю "мы выкатили", потому что мы с нашей командой крутили и искоряли эту модель, чтобы она работала за пару секунд.

Диффузия Go Brrrrr! - это лозунг нашей команды.

Приятно, когда результатами твоей работы могут пользоваться миллионы людей. Даже работая в ресерче в фаанге, не всегда есть такая возможность. Мне в этом смысле повезло, т.к. наша GenAI орга, кроме написания статей, ещё и катит ресерч в продукты и имеет реальный импакт.

@ai_newz
📝 Официальный подробный гайд по Prompt Engineering в GPT-4 от OpenAI

https://platform.openai.com/docs/guides/prompt-engineering/strategy-test-changes-systematically
This media is not supported in your browser
VIEW IN TELEGRAM
📼 OpenAI — SORA: Генерация видео по текстовому описанию

Очень впечатлило качество и консистентность генераций.

upd: paper (тех репорт) обещают выложить сегодня чуть позже.

👉 https://openai.com/sora
не сдавайтесь 🫶
Google опенсорснул Gemma-3B и Gemma-9B. Или Gemma-2B Gemma7B? А разве не Gemma-2.51B Gemma-8,54B?

Размер модели является ключевым показателем, по которому оцениваются её возможности и сравниваются различные модели. Под размером модели подразумевается (всего-навсего) количество обучаемых параметров. Но Гугл решил перевести свои модели в более легкую весовую категорию, дав моделям имена 2B и 7B. Хотя, Gemma-7B, которая, как оказалось, имеет 8,54 миллиарда параметров, что значительно превышает цифру, предполагаемую в её названии.

Другие модели, такие как Mistral-7B и Llama-7B, имеют 7,24 и 6,74 миллиарда параметров соответственно и названы более точно.

Решения Google использовать объем словаря токенизатора в 256K токенов, в отличие от меньшего размера в 32K токенов (для Llama) привело к огромному количеству embedding параметров: ~20% от общего размера 2.51B модели и ~9% от 8.54B.
Мишин Лернинг 🇺🇦🇮🇱
Google опенсорснул Gemma-3B и Gemma-9B. Или Gemma-2B Gemma7B? А разве не Gemma-2.51B Gemma-8,54B? Размер модели является ключевым показателем, по которому оцениваются её возможности и сравниваются различные модели. Под размером модели подразумевается (всего…
Точность в нейминге размера модели критически важна для LLM, поскольку это влияет на справедливость сравнения, воспроизводимость результатов и понимание компромиссов между размером модели и её производительностью.

Решил создать тред на HF. так что поддержать идею о переименовании модели Gemma7B в Gemma-9B можно тут:

👉 https://huggingface.co/google/gemma-7b/discussions/34

А то ресерч-маркетологи ведут себя как на рынке, ну и вообще, камон, округление все в начальной школе проходили.
Мишин Лернинг 🇺🇦🇮🇱
Точность в нейминге размера модели критически важна для LLM, поскольку это влияет на справедливость сравнения, воспроизводимость результатов и понимание компромиссов между размером модели и её производительностью. Решил создать тред на HF. так что поддержать…
Собственно. Конец истории:

Ресерч-маркетологи из Google закрыли proposal о переименовании модели.

В их ответе три поинта.

1) Ну, это эмбеддинги. Ну, они, это типа, ну не совсем прям считаются...

— В смысле не считаются? А почему HaggingFace говорит 8.54B? (см скриншот)

2) Ну это мы их не считаем.

Кто мы? Почему остальные считают? А то, что осталось, тоже не считаете? У вас же и без embedding'ов 7.75B!

3) Что касается появляющегося класса открытых моделей 7B, мы нацелены на те же варианты использования, что и другие модели класса 7B, с точки зрения совместимости аппаратного и программного обеспечения.


— Ага, вы 7B (то есть 7 миллиардов параметров) не потому что у вас 7B +- 0.4(9)B параметров, а потому что вашу модель будут юзать на том же железе, что и Llama 7B. Ах, вот оно как... Понял, вопросов больше не имею.
Принес вам реальные метрики Claude 3 vs GPT-4

Маркетологи Anthropic решили сравнивать Claude 3 не с последней версией GPT-4-Turbo, а GPT-4 годичной давности, взяв метрики модели GPT-4 марта 2023 года.

А по факту, GPT-4-Turbo показывает результаты, которые значительно лучшие, чем Claude 3.
Сегодня Международный женский день.

Тут не будет поздравлений, состоящих из пошлых клише в стиле "... женщины, которые вдохновляют нас не только своей красотой, но и своими успехами".. аж плохо стало...

Я хочу написать о реальной борьбе, которую ведет каждая женщина. Этот день — не о цветах и комплиментах, а о признании тех вызовов, с которыми сталкиваются женщины ежедневно.

Сегодня я хочу призвать каждого из нас задуматься. Начнем с того, что будем открыто говорить и признавать проблему, которая существует.

Могу добавить, что я очень рад тому, что вижу все больше женщин в сфере AI ресерча, которые делают невероятно крутые вещи. И еще рад тому, что в моем окружении нет места токсичным рабочим паттернам и стереотипам, а есть уважение, равенство и доверие!

Всем хорошего дня!
Все, что вы хотели знать о SORA

The Wall Street Journal взяли интервью у Миры Мурати (OpenAI CTO). Ждем SORA в этом году (она надеется, что будет доступно юзерам в течение пары месяцев). Обещают стоимость генераций, соизмеримую с DALL-E (что бы это ни значило)

📼 YouTube: https://www.youtube.com/watch?v=mAUpxN-EIgU
Маск пытается в OpenAI 2.0

Его новая компания xAI, выложила 314B (а это реально Пи3дец как много для опенсорса) MoE модель Grok-1.

По метрикам, пишут, что лучше чем GPT-3.5, но, имхо для 314B звезд с неба не хватает. Реализация на:

import haiku as hk
import jax


Из интересного, это самый большой опенсорс (в текущем поколении моделей), да еще и под лицензией apache. Ну а пока, кажется, что 46.7B (8x7B MoE) Mixtral или Hermes-Mixtral (ну и если нужно полегче 7B Mistral / Hermes-Mistral или совсем лайтовую 2.7B phi2) самое адекватное, что есть из опенсорса.

Код здесь. https://github.com/xai-org/grok-1
🫦 GPT-4o — Вот вам "HER" от OpenAI

tl:dr End-to-End Image + Text + Speech версия GPT-4

До появления GPT-4o использование режима Voice Mode с ChatGPT позволяло получать ответы со средним временем задержки в 2.8 секунды для GPT-3.5 и 5.4 секунды для GPT-4. В этом режиме были задействованы три отдельные модели:

1. Speech-to-Text переводила аудио в текст

2. Затем уже GPT-3.5 или GPT-4 обрабатывала текст и генерировала ответ.

3. И, наконец, третья модель переводила текст обратно в аудио.

Это означает, что модель GPT-4 не имеет доступа ко всей информации — она не воспринимает интонации, не различает голоса разных собеседников и не учитывает фоновые шумы, она не может воспроизводить смех, пение или передавать эмоции.

GPT-4o представляет собой новую модель, обученную end-to-end на трех доменах, включая текст, изображения и аудио.

👁 Блог OpenAI
🎞 YouTube OpenAI

Го тестить:
Модель ChatGPT "HER"
2024/05/28 03:27:29
Back to Top
HTML Embed Code:


Fatal error: Uncaught Error: Call to undefined function pop() in /var/www/tgoop/chat.php:243 Stack trace: #0 /var/www/tgoop/route.php(43): include_once() #1 {main} thrown in /var/www/tgoop/chat.php on line 243