DLINNLP Telegram 1760
GPT4o
openai.com/index/hello-gpt-4o/

Буква o в GPT4o означает "omnimodel". Новая моделька, аналогично gemini, может принимать на вход текст, аудио, картинки (и видео?) и генерировать эти модальности (текст, аудио, картинки, простенькое 3D)

Например, модель может суммаризировать видео, редактировать изображения, генерировать комиксы итд

Но самое впечатляющее это конечно же аудио. Новый (слегка кринж) очень живой и эмоциональный голос, который можно просить менять стиль, например насколько он звучит драматично или роботично, можно просить петь итд. Очень круто то что модель может обрабатывать и аудио и видео (как бы) одновременно. То есть ChatGPT слушает вас, но может и смотреть на то что вы показывете на камере -- теперь можно скидывать не только фотографию но и включать видео стрим.

Моделька будет основной моделью в ChatGPT, включая и беслпатных юзеров. Из того что я понял разница между платными и беслпатными теперь будет только в лимите запросов в день.

По метрикам, чуть-чуть лучше чем GPT4-turbo. Возможно мы уже подходим к потолку этих бенчмарков и скоро надо будет делать другие.

Очень рекомендую посмотреть видео с новой моделью, картинки не передают то насколько аудио крутое. Например посмотрите вот эти два видоса: тык, тык

Из презентации очень сильное впечатление что OAI окончательно стали продуктовой компанией. И 100% они специально поставили свою презентацию за день до гугловой. Такое ощущение что они поставили перед собой цель -- уничтожить гугл.

В общем очень крутая презентация, посмотрим как другие компании будут использовать новые API
44👍10🥱4



tgoop.com/dlinnlp/1760
Create:
Last Update:

GPT4o
openai.com/index/hello-gpt-4o/

Буква o в GPT4o означает "omnimodel". Новая моделька, аналогично gemini, может принимать на вход текст, аудио, картинки (и видео?) и генерировать эти модальности (текст, аудио, картинки, простенькое 3D)

Например, модель может суммаризировать видео, редактировать изображения, генерировать комиксы итд

Но самое впечатляющее это конечно же аудио. Новый (слегка кринж) очень живой и эмоциональный голос, который можно просить менять стиль, например насколько он звучит драматично или роботично, можно просить петь итд. Очень круто то что модель может обрабатывать и аудио и видео (как бы) одновременно. То есть ChatGPT слушает вас, но может и смотреть на то что вы показывете на камере -- теперь можно скидывать не только фотографию но и включать видео стрим.

Моделька будет основной моделью в ChatGPT, включая и беслпатных юзеров. Из того что я понял разница между платными и беслпатными теперь будет только в лимите запросов в день.

По метрикам, чуть-чуть лучше чем GPT4-turbo. Возможно мы уже подходим к потолку этих бенчмарков и скоро надо будет делать другие.

Очень рекомендую посмотреть видео с новой моделью, картинки не передают то насколько аудио крутое. Например посмотрите вот эти два видоса: тык, тык

Из презентации очень сильное впечатление что OAI окончательно стали продуктовой компанией. И 100% они специально поставили свою презентацию за день до гугловой. Такое ощущение что они поставили перед собой цель -- уничтожить гугл.

В общем очень крутая презентация, посмотрим как другие компании будут использовать новые API

BY DL in NLP




Share with your friend now:
tgoop.com/dlinnlp/1760

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. Write your hashtags in the language of your target audience. Users are more open to new information on workdays rather than weekends. With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings.
from us


Telegram DL in NLP
FROM American