Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
43 - Telegram Web
Telegram Web
Курс по Cursor + Obsidian делаем, разумеется, в них же. Если аккуратно развивать коллективный датасет — выгружать транскрипты встреч, идеи, программы уже прошедших встреч, то создание основ любого проекта (курса или воркшопа, экстеншена для Обсидиан или еще чего-то) становится вопросом правильно построенных диалогов с вашими файлами.
«Вкалывают роботы, счастлив человек»

Ну что, добро пожаловать в будущее.

Claude выпустили API для управления компьютером. Поднял, настроил. Попросил компьютер найти мне open calls для художников и сохранить их в табличку. Компьютер справился
Как потестировать:

1) Потребуется API-ключ Anthropic, его нужно будет экспортировать как системную переменную

2) Скачать код отсюда, перейти в папку computer-use-demo

3) запустить в этой папке aider, выполнить /add README.md и попросить установить все пакеты и запустить программу (пакетов будет довольно много)

4) после запускать открыть браузер и адрес http://localhost:8080, если всё ок, вы сможете в чате давать Клоду команды — например, что-то найти в интеренете, сохранить в табличку и так далее. Все эти операции делаются внутри виртуальной машины на Линуксе.

Здесь можно посмотреть демо
Написал чуть подробнее про Claude Computer — штуки, которая умеет пользоваться вашим компьютером (и да, это достаточно опасно).
Forwarded from AI Mindset (Gleb Kalinin)
Главная новость недели — новые модели Anthropic (которые даже не сменили версии, показав солидный рост производетельности) и Claude Computer Use.

Эта функциональность позволяет Claude управлять компьютером как человек: двигать курсором, нажимать кнопки, вводить текст, и использовать любое программное обеспечение. Может выполнять последовательности действий (например, проверить таблицу → открыть браузер → заполнить форму). Пока находится в экспериментальной стадии и доступна через API.

Это не первый такой продукт — подобное уже давно реализовано в OpenInterpreter, своя модель для взаимодействия с интерфейсами есть у Apple, подобную же модель показывали злополучные Rabbit (они называли её large action model).

Однако это первый раз, когда подобный API опубликован компанией-разработчиком большой языковой модели, доступнен сразу же неограниченному кругу пользователей.

У модели полно ограничений. Некоторые базовые действия (скроллинг, перетаскивание, зум) даются пока что с трудом. В моих текстах она не справлялась с такими простыми операциями, как закрытие всплывающих окон с запросом про cookie — и, надо признать, эти интерфейсы действительно сложны, и для человека тоже.

Computer Use набрал 14.9% в тесте OSWorld, оценивающей способности ии-моделей пользоваться компьютером, в категории "только скриншоты" — это почти вдвое лучше следующего конкурента (7.8%), но всё ещё не первое место (там сейчас [Agent-S)).
Видео-демо: Claude | Computer use for automating operations - YouTube

Как протестировать уже сегодня:
(понадобятся навыки работы с терминалом)

Безопасный способ. Установите стартовые пакеты из официального дистрибутива  anthropics/anthropic-quickstarts · GitHub — он установит виртуальную машину, у которой нет доступа к вашей файловой системе. Все тестовые операции будут выполняться внутри этой виртуальной машины.

Небезопасный способ. Через вышеупомянытй OpenInterpreter на MacOS. Установите утилиту (pip install open-interpreter), выберите модель (interpreter --model claude-3) и запустите команду (interpreter --os). Теперь вы можете давать утилите текстовые команды, для выполнения которых OpenInterpreter может запускать программы, искать в интернете, создавать, редактировать и удалять файлы.
Для работы с интерфейсами программа делает скриншоты и отправляет их в API Claude, поэтому будьте готовы, что это будет небыстро, и, к сожалению, недешево.


На один эксперимент: поискать в интернете, сохранить данные в таблицу, я потратил около часа, 2 500 000 токенов и почти 8 долларов. Но главное, что эксперимент удался, я получил на выходе pdf с отформатированными результатами поиска.

На другой эксперимент — сделать для меня подборку событий на выходные в Берлине с учетом моих интересов и вывод их в markdown-таблицу, потратил почти 3 доллара и почти миллион токенов.

Если задачи формулировать максимально точно, минимизировать при их постановке использование графических интерфейсов, снизить разрешение экрана (чтобы уменьшить количество потребляемых токенов), то цены можно минимизировать — тут промт-инжиниринг и подготовка среды будут иметь в ближайшее время огромное значение.

И хотя всё это работает пока не очень надежно, есть что-то очень футуристичное в том, что ии может пользоваться графическими интерфейсами почти так же, как мы.

Глеб
Media is too big
VIEW IN TELEGRAM
Выяснил параллельно, что OpenInterpreter передумали делать железку, которая вас слушает, и пивотнулись в приложение.

Уже сейчас, если повезет, можно собрать сетап, в котором вы сможете давать голосовые команды вашему компьютеру (даже находясь далеко от него) и получать голосовые же ответы

https://changes.openinterpreter.com/log/01-app
как вам такой интерфейс к вашему ии-ассистенту?

https://x.com/shipbitagency/status/1787213070168727831
Но самым главным забыл поделиться — мне ии по одной голосовой команде составил табличку интересного на субботу в Берлине. Процесс был глючный, но результат всё равно впечатляет.

> please create a table with 10 events in Berlin this saturday. i'm interested in art and technlogy. please limit to mitte and prenzlauerberg and kreuzberg
Я пишу с ошибками, и часто их не исправляю. Во-первых, окончательно растворяю перфекциониста, который когда-то заставлял расставлять правильную типографику даже в комментариях к заказу пиццы, во-вторых, чтобы отличать свои тексты от генераций ллм.

Сами ллм же настолько не прихотливы к качеству входящего текста, что этим можно пользоваться и с ошибками без пунктуации просто в ряд набивая ключевые слова расширения контекста

Например, ChatGPT или Claude совершенно все равно, напишите вы pls, pliz, plees или please — модель самого слова в любом случае целиком не видит.

А вот получить из модели человекоподобные ошибки почти невозможно без файн-тьюнинга на текстах с большим количеством ошибок, и даже в этом случае ошибки будут более детерминированы, чем настоящие человеческие.

Это интересная проблема — когда работаешь с midjourney, невозможно достичь рисунков в своем, очень рваном и хаотичном стиле, сколько не крути параметры вроде --chaos

Поэтому давайте ценить свою «шумность», недетерминированность, хаотичность.
Чтобы пользоваться самым прогрессивным ai-стеком, пока ещё приходится много команд запускать в командной строке, править переменные руками и заниматься прочим грустным хакингом.

Но всё большую часть таких задач можно решить в aider или cursor, просто скормив им инструкцию.

Как в старые добрые времена, когда рецепт начинался со слов «скажите повару», рецепт любой технической задачи будет начинаться со слов «скажите ии-агенту».

Уже сейчас можно сказать aider что-то в духе install everything describe in README.md, когда устанавливаешь какой-нибудь очередной пакет — в подавляющем большинстве случаев он справляется.
This media is not supported in your browser
VIEW IN TELEGRAM
Общаюсь с телефона с pdf-ками на моём компьютере. Приложение 01 очень сырое, но когда оно работает, это правда похоже на магию.

Вместо pdf здесь мог бы быть моё хранилище в Obsidian, книга которую я читаю, или что угодно ещё

PS. Включил здесь комментарии
Очень крутой режим в приложении 01, демо которого можно посмотреть в этом видео — включаете приложение в фоне, оно постоянно слушает и транскрибирует всё что слышит, но ничего с транскриптом не делает и никуда его не отправляет, пока вы не нажмете кнопку и не скажете, что именно нужно сделать.

Пользовался бы я этим так (пока весь сетап, увы, несколько хлипкий и периодически разваливается): держал бы включенным, когда потребляю любой контент — аудио, видео, лекции. Сейчас для этих целей использую Limitless (это одно из лучших приложение для реалтайм-транскрибации, и они же планируют отдельное носимое устройство для этих целей).

Когда слышу что-то важное/интересно/нужное, жму на паузу, прошу суммаризировать, ответить на вопрос или, например, сохранить — факты, имена, вопросы в заметку в Obsidian.

Это похоже на фоновый режим, который OpenAI показывали в демо приложения ChatGPT, но так и не зарелизили.
Как я грумлю заметки в Obsidian с помощью Cursor

У меня большая (7000+) база заметок в Obsidian, и буду откровенен — много где бардак, потемкинские деревни, навигационные заметки (maps of content) почти пустые, при этом некоторые из них весьма важные для моей жизни.

Просто информация про них раскидана по другим заметкам, и её может быть очень много.

Cursor буквально в 1-2 команды помогает вытащить всё, что про ту или иную тему было написано, и сам вставит это в заметку. А если какого-то контента не хватает, то можно запросить его сгенерировать прямо на месте, используя Claude 3.5 (но хорошо бы валидировать, конечно же, и помечать как сгенерированное).
Вот пример заметки, которая была пустой. В несколько запросов я собрал всё-всё, что есть в моей базе знаний, в одну довольно подробную карту контента. Кое-что пришлось поправить руками, но на 90% — получилось то, что нужно. Целый раздел, который я до этого не изучал, появился как следствие такого причёсывания.

Выгрузил её для вас в виде странички → https://brain.glebkalinin.com/default-mode-network/
Более четверти кода в Гугле генерирует AI, инженеры проверяют и принимают.

We're also using AI internally to improve our coding processes, which is boosting productivity and efficiency. Today, more than a quarter of all new code at Google is generated by AI, then reviewed and accepted by engineers. This helps our engineers do more and move faster.


Еще гораздо менее показательный, но тоже любопытный факт: 70% кода aider — инструмента создания кода с помощью ллм, написано при помощи самого aider (в мае было всего 7%).

Ии — это инструмент создания инструментов, и пока human-in-the-loop никуда не уходит, но задачи этого человека меняются (и как по мне, к лучшему — больше интересной высокоуровневой работы, реальной ценности)
Новый выпуск подкаста — размышляем о том, чему и как учиться в ИИ.

И лаборатория наша собирается — в ноябре будем в очередной раз погружаться в мир генеративного ИИ и инструментов, доступных каждому.
Forwarded from AI Mindset (Gleb Kalinin)
ИИ в обучение и обучение ИИ
Очередной выпуск нашего подкаста

В этот раз обсуждаем практические стратегии использования ИИ для личного развития и обучения. От ChatGPT до Claude Artifacts - смотрим на разнообразие инструментов и контекстов их применения.

Делимся личным опытом создания персонализированных систем обучения: как использовать ИИ для изучения языков, почему важно не просто автоматизировать, а глубоко и эмоциональновзаимодействовать с информацией. Представляем, как должен работать «второй мозг» в будущем (агентно).

Говорим про голосовые интерфейсы, телесное взаимодействие с ии и персонализированные модульные системы обучения. Приводим аргументы, почему ии-инструменты нужно осваивать уже сейчас, и как делать это эффективно и с уважением к нашей человеческой природе.


Слушать:
YoutubeSpotifyApple PodcastsВсе площадки

Наша ИИ-лаборатория AI Mindset V — глубокое погружение в практику ИИ в ноябре
Если бы функции ЛЛМ ограничивались только структурированием данных, суммаризацией и сжатием текста, это уже был бы большой прогресс для многих индустрий и исследователей
2025/07/06 03:21:50
Back to Top
HTML Embed Code: