BLOG_TOXA Telegram 444
Visual SKETCHPAD

Давайте в это прекрасное воскресенье не про менеджерское, а про техническое 😍.

Читал я, значит, очередную статью про мультимодальный ризонинг и натыкаюсь в ней на другую годовалой давности. Не знаю, по каким причинам я её пропустил тогда (а их могут быть тысячи), но идея очень прикольная.

Когда только вышли мультимодальные системы серии O от OpenAI, вау-эффектом было то, что в рассуждениях они часто кропали, зумили и всячески модифицировали картинки. И вау было не от того, что как-то система учитывает их в контексте (это как раз база), а откуда и как она эти картинки модифицирует.

И тут меня опытный чтец остановит и спросит: а чо всмысле система? Почему не модель? И будет прав, потому что никто, кроме самих сотрудников, не знает, чо там под капотом, поэтому мне легче рассуждать в терминах системы.


И вот статья Visual SKETCHPAD как раз отвечает на то, как это можно попробовать реализовать чисто инженерно, без всяких обучений. Давайте просто из модели сделаем агента, которому мы дадим определённый набор инструментов для работы с картинками, такие, как: нарисовать линию, сегментировать, нарисовать график, сделать кроп, зазумить область и т.д. И будем просить генерировать CoT с учётом того, что она может использовать эти тулы.

Результаты репортят ещё на тогдашней GPT4o, в целом, растёт на всём, где-то прям очень много (задачи на графы, детекции на high-res картинках), где-то не так много (математика, геометрия).

Очень забавный подход, интересно, как он работает спустя год. А может быть это он и работает под капотом в рассуждающих моделях. Не знаю 😊

P.S. Когда писал пост, наткнулся на обзор https://www.tgoop.com/gonzo_ML/2823. Почему я пропустил мне интереснее всё больше и больше 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3👎2🔥2



tgoop.com/blog_toxa/444
Create:
Last Update:

Visual SKETCHPAD

Давайте в это прекрасное воскресенье не про менеджерское, а про техническое 😍.

Читал я, значит, очередную статью про мультимодальный ризонинг и натыкаюсь в ней на другую годовалой давности. Не знаю, по каким причинам я её пропустил тогда (а их могут быть тысячи), но идея очень прикольная.

Когда только вышли мультимодальные системы серии O от OpenAI, вау-эффектом было то, что в рассуждениях они часто кропали, зумили и всячески модифицировали картинки. И вау было не от того, что как-то система учитывает их в контексте (это как раз база), а откуда и как она эти картинки модифицирует.

И тут меня опытный чтец остановит и спросит: а чо всмысле система? Почему не модель? И будет прав, потому что никто, кроме самих сотрудников, не знает, чо там под капотом, поэтому мне легче рассуждать в терминах системы.


И вот статья Visual SKETCHPAD как раз отвечает на то, как это можно попробовать реализовать чисто инженерно, без всяких обучений. Давайте просто из модели сделаем агента, которому мы дадим определённый набор инструментов для работы с картинками, такие, как: нарисовать линию, сегментировать, нарисовать график, сделать кроп, зазумить область и т.д. И будем просить генерировать CoT с учётом того, что она может использовать эти тулы.

Результаты репортят ещё на тогдашней GPT4o, в целом, растёт на всём, где-то прям очень много (задачи на графы, детекции на high-res картинках), где-то не так много (математика, геометрия).

Очень забавный подход, интересно, как он работает спустя год. А может быть это он и работает под капотом в рассуждающих моделях. Не знаю 😊

P.S. Когда писал пост, наткнулся на обзор https://www.tgoop.com/gonzo_ML/2823. Почему я пропустил мне интереснее всё больше и больше 😀

BY Дратути Антон


Share with your friend now:
tgoop.com/blog_toxa/444

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up.
from us


Telegram Дратути Антон
FROM American