AI_VOLUTION Telegram 1062
Наконец-то завезли настоящую омнимодальность в GPT-4o!

Теперь изображения генерируются самой моделью 4o, а не проксируются через DALL-E "под капотом", как раньше. Всё, как и обещали в 2024, но теперь оно реально работает.

Что появилось:
– Генерация изображения по промпту, с учётом всех нюансов (цвета, стиль, размер, композиция, до 10–20 объектов в сцене).
– Отлично рендерит текст внутри изображений — можно делать меню, постеры, мемы, обложки и всё такое.
– Поддерживает пошаговое улучшение — можно уточнять запрос и получать новые итерации.
– Умеет удалять фон, менять стиль, добавлять/убирать объекты — почти как текстовый Photoshop.
– Можно загружать свои картинки и дорабатывать их — всё происходит в контексте чата, модель “помнит”, что ты делал до этого.

Немного деталей:
GPT-4o обучалась на совместном распределении изображений и текста — то есть она понимает не только, как описывать картинки, но и как визуальные элементы связаны друг с другом. Это даёт ей эффект визуальной беглости — модель осмысленно работает с символами, схемами, композициями.

Плюс, OpenAI закатили агрессивный посттренинг, чтобы повысить точность и связность. В итоге: 4o понимает, что рисует, не путается в деталях и может использовать свои знания для генерации полезных визуальных материалов, а не только «красивых картинок».

Не всё конечно идеально:
– Медленно — до минуты на одну генерацию (но оно того стоит).
– Фотореализма как у Midjourney пока нет, в демо всё было скорее стилизованным.
– Сложно даются мелкие надписи, графики и тексты на не-латинице — могут быть косяки.

Доступ:
– Уже доступно всем в ChatGPT — Plus, Pro, Team, даже Free.
– В API обещают завезти на следующей неделе.
– Генерация по умолчанию включена, ничего настраивать не нужно.
– DALL-E по-прежнему доступен через отдельный GPT, если прям хочется (но я не понял где это искать или видимо нужно просить в запросе использовать DALL-E)

В сети уже огромное кол-во примеров с генерацией, поэтому не буду ничего постить, пробуйте сами (увлекательное занятие).

Официальная новость с кучей примеров: https://openai.com/index/introducing-4o-image-generation/

ИИволюция



tgoop.com/ai_volution/1062
Create:
Last Update:

Наконец-то завезли настоящую омнимодальность в GPT-4o!

Теперь изображения генерируются самой моделью 4o, а не проксируются через DALL-E "под капотом", как раньше. Всё, как и обещали в 2024, но теперь оно реально работает.

Что появилось:
– Генерация изображения по промпту, с учётом всех нюансов (цвета, стиль, размер, композиция, до 10–20 объектов в сцене).
– Отлично рендерит текст внутри изображений — можно делать меню, постеры, мемы, обложки и всё такое.
– Поддерживает пошаговое улучшение — можно уточнять запрос и получать новые итерации.
– Умеет удалять фон, менять стиль, добавлять/убирать объекты — почти как текстовый Photoshop.
– Можно загружать свои картинки и дорабатывать их — всё происходит в контексте чата, модель “помнит”, что ты делал до этого.

Немного деталей:
GPT-4o обучалась на совместном распределении изображений и текста — то есть она понимает не только, как описывать картинки, но и как визуальные элементы связаны друг с другом. Это даёт ей эффект визуальной беглости — модель осмысленно работает с символами, схемами, композициями.

Плюс, OpenAI закатили агрессивный посттренинг, чтобы повысить точность и связность. В итоге: 4o понимает, что рисует, не путается в деталях и может использовать свои знания для генерации полезных визуальных материалов, а не только «красивых картинок».

Не всё конечно идеально:
– Медленно — до минуты на одну генерацию (но оно того стоит).
– Фотореализма как у Midjourney пока нет, в демо всё было скорее стилизованным.
– Сложно даются мелкие надписи, графики и тексты на не-латинице — могут быть косяки.

Доступ:
– Уже доступно всем в ChatGPT — Plus, Pro, Team, даже Free.
– В API обещают завезти на следующей неделе.
– Генерация по умолчанию включена, ничего настраивать не нужно.
– DALL-E по-прежнему доступен через отдельный GPT, если прям хочется (но я не понял где это искать или видимо нужно просить в запросе использовать DALL-E)

В сети уже огромное кол-во примеров с генерацией, поэтому не буду ничего постить, пробуйте сами (увлекательное занятие).

Официальная новость с кучей примеров: https://openai.com/index/introducing-4o-image-generation/

ИИволюция

BY ИИволюция 👾


Share with your friend now:
tgoop.com/ai_volution/1062

View MORE
Open in Telegram


Telegram News

Date: |

Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” 5Telegram Channel avatar size/dimensions To edit your name or bio, click the Menu icon and select “Manage Channel.”
from us


Telegram ИИволюция 👾
FROM American