tgoop.com/blog_toxa/444
Create:
Last Update:
Last Update:
Visual SKETCHPAD
Давайте в это прекрасное воскресенье не про менеджерское, а про техническое
Читал я, значит, очередную статью про мультимодальный ризонинг и натыкаюсь в ней на другую годовалой давности. Не знаю, по каким причинам я её пропустил тогда (а их могут быть тысячи), но идея очень прикольная.
Когда только вышли мультимодальные системы серии O от OpenAI, вау-эффектом было то, что в рассуждениях они часто кропали, зумили и всячески модифицировали картинки. И вау было не от того, что как-то система учитывает их в контексте (это как раз база), а откуда и как она эти картинки модифицирует.
И тут меня опытный чтец остановит и спросит: а чо всмысле система? Почему не модель? И будет прав, потому что никто, кроме самих сотрудников, не знает, чо там под капотом, поэтому мне легче рассуждать в терминах системы.
И вот статья Visual SKETCHPAD как раз отвечает на то, как это можно попробовать реализовать чисто инженерно, без всяких обучений. Давайте просто из модели сделаем агента, которому мы дадим определённый набор инструментов для работы с картинками, такие, как: нарисовать линию, сегментировать, нарисовать график, сделать кроп, зазумить область и т.д. И будем просить генерировать CoT с учётом того, что она может использовать эти тулы.
Результаты репортят ещё на тогдашней GPT4o, в целом, растёт на всём, где-то прям очень много (задачи на графы, детекции на high-res картинках), где-то не так много (математика, геометрия).
Очень забавный подход, интересно, как он работает спустя год. А может быть это он и работает под капотом в рассуждающих моделях. Не знаю
P.S. Когда писал пост, наткнулся на обзор https://www.tgoop.com/gonzo_ML/2823. Почему я пропустил мне интереснее всё больше и больше