Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/pathetic_low_freq/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Жалкие низкочастотники@pathetic_low_freq P.379
PATHETIC_LOW_FREQ Telegram 379
Немного напишу про CLIP, как это работает и что с ним можно сделать.

Как все уже слышали, OpenAI в начале января анонсировала (но не выложила и даже пока толком не описала) модель DALL-E, которая (судя по отобранным примерам) очень неплохо рисует картинки по текстовому описанию. Поиграть с отобранными примерами можно на странице проекта, но это не так интересно. Интереснее, что они выложили отдельную модель CLIP, которую использовали в DALL-E. Этот самый CLIP умеет переводить тексты и картинки в вектора одного общего латентного многомерного пространства. Другими словами, он сопоставляет любой картинке или любому тексту вектор чисел фиксированной длины, причём так, что у надписи, подходящей к картинке, числа будут близкими к числам самой картинки. Вот тут можно посмотреть на случайные области картинок в этом пространстве.

С момента публикации народ начал пытаться использовать CLIP для генерации картинок. В открытом доступе есть много неплохих GAN-моделей, использующих своё собственное латентное многомерное пространство, каждой точке которого соответствует картинка, а близким точкам -- близкие картинки. (Там бывают и осмысленные направления, о которых пишутся научные статьи, но нам сейчас это не так важно.) К сожалению, пространства CLIP и какого-нибудь GAN никак не связаны. Но всё равно можно организовать поиск подходящей картинки, упрощённо говоря, так: начинаем из любой точки пространства GAN, делаем из неё картинку, картинку отдаём CLIP и смотрим, насколько далеко мы от точки в пространстве CLIP, заданной целевым текстом, и куда надо сдвинуться в пространстве GAN. И так ползём в сторону текста.

Самое бодрое из таких попыток, что я видел за этот месяц — проект Райена Мёрдока The Big Sleep на базе BigGAN. Народ вроде собирается поднять для проекта отдельный сайт, а пока можно поиграться в авторский колаб (или в русскую адаптацию колаба от @bomze). Работает оно жутко медленно и довольно криво, и конкретные объекты (особенно не из ImageNet-а) ему даются плохо. Но если проявить воображение и набрасывать абстрактные запросы, то можно наловить неплохих картинок.

В следующей пачке картинок одна — от автора модели ("a cityscape in the style of Van Gogh"), остальные — мои: "8-bit forest", "Escher's space", "Sierpinski hat" и "Hokusai Christmas".



tgoop.com/pathetic_low_freq/379
Create:
Last Update:

Немного напишу про CLIP, как это работает и что с ним можно сделать.

Как все уже слышали, OpenAI в начале января анонсировала (но не выложила и даже пока толком не описала) модель DALL-E, которая (судя по отобранным примерам) очень неплохо рисует картинки по текстовому описанию. Поиграть с отобранными примерами можно на странице проекта, но это не так интересно. Интереснее, что они выложили отдельную модель CLIP, которую использовали в DALL-E. Этот самый CLIP умеет переводить тексты и картинки в вектора одного общего латентного многомерного пространства. Другими словами, он сопоставляет любой картинке или любому тексту вектор чисел фиксированной длины, причём так, что у надписи, подходящей к картинке, числа будут близкими к числам самой картинки. Вот тут можно посмотреть на случайные области картинок в этом пространстве.

С момента публикации народ начал пытаться использовать CLIP для генерации картинок. В открытом доступе есть много неплохих GAN-моделей, использующих своё собственное латентное многомерное пространство, каждой точке которого соответствует картинка, а близким точкам -- близкие картинки. (Там бывают и осмысленные направления, о которых пишутся научные статьи, но нам сейчас это не так важно.) К сожалению, пространства CLIP и какого-нибудь GAN никак не связаны. Но всё равно можно организовать поиск подходящей картинки, упрощённо говоря, так: начинаем из любой точки пространства GAN, делаем из неё картинку, картинку отдаём CLIP и смотрим, насколько далеко мы от точки в пространстве CLIP, заданной целевым текстом, и куда надо сдвинуться в пространстве GAN. И так ползём в сторону текста.

Самое бодрое из таких попыток, что я видел за этот месяц — проект Райена Мёрдока The Big Sleep на базе BigGAN. Народ вроде собирается поднять для проекта отдельный сайт, а пока можно поиграться в авторский колаб (или в русскую адаптацию колаба от @bomze). Работает оно жутко медленно и довольно криво, и конкретные объекты (особенно не из ImageNet-а) ему даются плохо. Но если проявить воображение и набрасывать абстрактные запросы, то можно наловить неплохих картинок.

В следующей пачке картинок одна — от автора модели ("a cityscape in the style of Van Gogh"), остальные — мои: "8-bit forest", "Escher's space", "Sierpinski hat" и "Hokusai Christmas".

BY Жалкие низкочастотники


Share with your friend now:
tgoop.com/pathetic_low_freq/379

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? fire bomb molotov November 18 Dylan Hollingsworth yau ma tei Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces.
from us


Telegram Жалкие низкочастотники
FROM American