Курс по Cursor + Obsidian делаем, разумеется, в них же. Если аккуратно развивать коллективный датасет — выгружать транскрипты встреч, идеи, программы уже прошедших встреч, то создание основ любого проекта (курса или воркшопа, экстеншена для Обсидиан или еще чего-то) становится вопросом правильно построенных диалогов с вашими файлами.
Как потестировать:
1) Потребуется API-ключ Anthropic, его нужно будет экспортировать как системную переменную
2) Скачать код отсюда, перейти в папку computer-use-demo
3) запустить в этой папке aider, выполнить /add README.md и попросить установить все пакеты и запустить программу (пакетов будет довольно много)
4) после запускать открыть браузер и адрес http://localhost:8080, если всё ок, вы сможете в чате давать Клоду команды — например, что-то найти в интеренете, сохранить в табличку и так далее. Все эти операции делаются внутри виртуальной машины на Линуксе.
Здесь можно посмотреть демо
1) Потребуется API-ключ Anthropic, его нужно будет экспортировать как системную переменную
2) Скачать код отсюда, перейти в папку computer-use-demo
3) запустить в этой папке aider, выполнить /add README.md и попросить установить все пакеты и запустить программу (пакетов будет довольно много)
4) после запускать открыть браузер и адрес http://localhost:8080, если всё ок, вы сможете в чате давать Клоду команды — например, что-то найти в интеренете, сохранить в табличку и так далее. Все эти операции делаются внутри виртуальной машины на Линуксе.
Здесь можно посмотреть демо
Написал чуть подробнее про Claude Computer — штуки, которая умеет пользоваться вашим компьютером (и да, это достаточно опасно).
Forwarded from AI Mindset (Gleb Kalinin)
Главная новость недели — новые модели Anthropic (которые даже не сменили версии, показав солидный рост производетельности) и Claude Computer Use.
Эта функциональность позволяет Claude управлять компьютером как человек: двигать курсором, нажимать кнопки, вводить текст, и использовать любое программное обеспечение. Может выполнять последовательности действий (например, проверить таблицу → открыть браузер → заполнить форму). Пока находится в экспериментальной стадии и доступна через API.
Это не первый такой продукт — подобное уже давно реализовано в OpenInterpreter, своя модель для взаимодействия с интерфейсами есть у Apple, подобную же модель показывали злополучные Rabbit (они называли её large action model).
Однако это первый раз, когда подобный API опубликован компанией-разработчиком большой языковой модели, доступнен сразу же неограниченному кругу пользователей.
У модели полно ограничений. Некоторые базовые действия (скроллинг, перетаскивание, зум) даются пока что с трудом. В моих текстах она не справлялась с такими простыми операциями, как закрытие всплывающих окон с запросом про cookie — и, надо признать, эти интерфейсы действительно сложны, и для человека тоже.
Computer Use набрал 14.9% в тесте OSWorld, оценивающей способности ии-моделей пользоваться компьютером, в категории "только скриншоты" — это почти вдвое лучше следующего конкурента (7.8%), но всё ещё не первое место (там сейчас [Agent-S)).
Видео-демо: Claude | Computer use for automating operations - YouTube
Как протестировать уже сегодня:
(понадобятся навыки работы с терминалом)
Безопасный способ. Установите стартовые пакеты из официального дистрибутива anthropics/anthropic-quickstarts · GitHub — он установит виртуальную машину, у которой нет доступа к вашей файловой системе. Все тестовые операции будут выполняться внутри этой виртуальной машины.
Небезопасный способ. Через вышеупомянытй OpenInterpreter на MacOS. Установите утилиту (pip install open-interpreter), выберите модель (interpreter --model claude-3) и запустите команду (interpreter --os). Теперь вы можете давать утилите текстовые команды, для выполнения которых OpenInterpreter может запускать программы, искать в интернете, создавать, редактировать и удалять файлы.
Для работы с интерфейсами программа делает скриншоты и отправляет их в API Claude, поэтому будьте готовы, что это будет небыстро, и, к сожалению, недешево.
На один эксперимент: поискать в интернете, сохранить данные в таблицу, я потратил около часа, 2 500 000 токенов и почти 8 долларов. Но главное, что эксперимент удался, я получил на выходе pdf с отформатированными результатами поиска.
На другой эксперимент — сделать для меня подборку событий на выходные в Берлине с учетом моих интересов и вывод их в markdown-таблицу, потратил почти 3 доллара и почти миллион токенов.
Если задачи формулировать максимально точно, минимизировать при их постановке использование графических интерфейсов, снизить разрешение экрана (чтобы уменьшить количество потребляемых токенов), то цены можно минимизировать — тут промт-инжиниринг и подготовка среды будут иметь в ближайшее время огромное значение.
И хотя всё это работает пока не очень надежно, есть что-то очень футуристичное в том, что ии может пользоваться графическими интерфейсами почти так же, как мы.
— Глеб
Эта функциональность позволяет Claude управлять компьютером как человек: двигать курсором, нажимать кнопки, вводить текст, и использовать любое программное обеспечение. Может выполнять последовательности действий (например, проверить таблицу → открыть браузер → заполнить форму). Пока находится в экспериментальной стадии и доступна через API.
Это не первый такой продукт — подобное уже давно реализовано в OpenInterpreter, своя модель для взаимодействия с интерфейсами есть у Apple, подобную же модель показывали злополучные Rabbit (они называли её large action model).
Однако это первый раз, когда подобный API опубликован компанией-разработчиком большой языковой модели, доступнен сразу же неограниченному кругу пользователей.
У модели полно ограничений. Некоторые базовые действия (скроллинг, перетаскивание, зум) даются пока что с трудом. В моих текстах она не справлялась с такими простыми операциями, как закрытие всплывающих окон с запросом про cookie — и, надо признать, эти интерфейсы действительно сложны, и для человека тоже.
Computer Use набрал 14.9% в тесте OSWorld, оценивающей способности ии-моделей пользоваться компьютером, в категории "только скриншоты" — это почти вдвое лучше следующего конкурента (7.8%), но всё ещё не первое место (там сейчас [Agent-S)).
Видео-демо: Claude | Computer use for automating operations - YouTube
Как протестировать уже сегодня:
(понадобятся навыки работы с терминалом)
Безопасный способ. Установите стартовые пакеты из официального дистрибутива anthropics/anthropic-quickstarts · GitHub — он установит виртуальную машину, у которой нет доступа к вашей файловой системе. Все тестовые операции будут выполняться внутри этой виртуальной машины.
Небезопасный способ. Через вышеупомянытй OpenInterpreter на MacOS. Установите утилиту (pip install open-interpreter), выберите модель (interpreter --model claude-3) и запустите команду (interpreter --os). Теперь вы можете давать утилите текстовые команды, для выполнения которых OpenInterpreter может запускать программы, искать в интернете, создавать, редактировать и удалять файлы.
Для работы с интерфейсами программа делает скриншоты и отправляет их в API Claude, поэтому будьте готовы, что это будет небыстро, и, к сожалению, недешево.
На один эксперимент: поискать в интернете, сохранить данные в таблицу, я потратил около часа, 2 500 000 токенов и почти 8 долларов. Но главное, что эксперимент удался, я получил на выходе pdf с отформатированными результатами поиска.
На другой эксперимент — сделать для меня подборку событий на выходные в Берлине с учетом моих интересов и вывод их в markdown-таблицу, потратил почти 3 доллара и почти миллион токенов.
Если задачи формулировать максимально точно, минимизировать при их постановке использование графических интерфейсов, снизить разрешение экрана (чтобы уменьшить количество потребляемых токенов), то цены можно минимизировать — тут промт-инжиниринг и подготовка среды будут иметь в ближайшее время огромное значение.
И хотя всё это работает пока не очень надежно, есть что-то очень футуристичное в том, что ии может пользоваться графическими интерфейсами почти так же, как мы.
— Глеб
Anthropic
Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku
A refreshed, more powerful Claude 3.5 Sonnet, Claude 3.5 Haiku, and a new experimental AI capability: computer use.
Media is too big
VIEW IN TELEGRAM
Выяснил параллельно, что OpenInterpreter передумали делать железку, которая вас слушает, и пивотнулись в приложение.
Уже сейчас, если повезет, можно собрать сетап, в котором вы сможете давать голосовые команды вашему компьютеру (даже находясь далеко от него) и получать голосовые же ответы
https://changes.openinterpreter.com/log/01-app
Уже сейчас, если повезет, можно собрать сетап, в котором вы сможете давать голосовые команды вашему компьютеру (даже находясь далеко от него) и получать голосовые же ответы
https://changes.openinterpreter.com/log/01-app
как вам такой интерфейс к вашему ии-ассистенту?
https://x.com/shipbitagency/status/1787213070168727831
https://x.com/shipbitagency/status/1787213070168727831
Но самым главным забыл поделиться — мне ии по одной голосовой команде составил табличку интересного на субботу в Берлине. Процесс был глючный, но результат всё равно впечатляет.
> please create a table with 10 events in Berlin this saturday. i'm interested in art and technlogy. please limit to mitte and prenzlauerberg and kreuzberg
> please create a table with 10 events in Berlin this saturday. i'm interested in art and technlogy. please limit to mitte and prenzlauerberg and kreuzberg
Я пишу с ошибками, и часто их не исправляю. Во-первых, окончательно растворяю перфекциониста, который когда-то заставлял расставлять правильную типографику даже в комментариях к заказу пиццы, во-вторых, чтобы отличать свои тексты от генераций ллм.
Сами ллм же настолько не прихотливы к качеству входящего текста, что этим можно пользоваться и с ошибками без пунктуации просто в ряд набивая ключевые слова расширения контекста
Например, ChatGPT или Claude совершенно все равно, напишите вы pls, pliz, plees или please — модель самого слова в любом случае целиком не видит.
А вот получить из модели человекоподобные ошибки почти невозможно без файн-тьюнинга на текстах с большим количеством ошибок, и даже в этом случае ошибки будут более детерминированы, чем настоящие человеческие.
Это интересная проблема — когда работаешь с midjourney, невозможно достичь рисунков в своем, очень рваном и хаотичном стиле, сколько не крути параметры вроде --chaos
Поэтому давайте ценить свою «шумность», недетерминированность, хаотичность.
Сами ллм же настолько не прихотливы к качеству входящего текста, что этим можно пользоваться и с ошибками без пунктуации просто в ряд набивая ключевые слова расширения контекста
Например, ChatGPT или Claude совершенно все равно, напишите вы pls, pliz, plees или please — модель самого слова в любом случае целиком не видит.
А вот получить из модели человекоподобные ошибки почти невозможно без файн-тьюнинга на текстах с большим количеством ошибок, и даже в этом случае ошибки будут более детерминированы, чем настоящие человеческие.
Это интересная проблема — когда работаешь с midjourney, невозможно достичь рисунков в своем, очень рваном и хаотичном стиле, сколько не крути параметры вроде --chaos
Поэтому давайте ценить свою «шумность», недетерминированность, хаотичность.
Чтобы пользоваться самым прогрессивным ai-стеком, пока ещё приходится много команд запускать в командной строке, править переменные руками и заниматься прочим грустным хакингом.
Но всё большую часть таких задач можно решить в aider или cursor, просто скормив им инструкцию.
Как в старые добрые времена, когда рецепт начинался со слов «скажите повару», рецепт любой технической задачи будет начинаться со слов «скажите ии-агенту».
Уже сейчас можно сказать aider что-то в духе install everything describe in README.md, когда устанавливаешь какой-нибудь очередной пакет — в подавляющем большинстве случаев он справляется.
Но всё большую часть таких задач можно решить в aider или cursor, просто скормив им инструкцию.
Как в старые добрые времена, когда рецепт начинался со слов «скажите повару», рецепт любой технической задачи будет начинаться со слов «скажите ии-агенту».
Уже сейчас можно сказать aider что-то в духе install everything describe in README.md, когда устанавливаешь какой-нибудь очередной пакет — в подавляющем большинстве случаев он справляется.
This media is not supported in your browser
VIEW IN TELEGRAM
Общаюсь с телефона с pdf-ками на моём компьютере. Приложение 01 очень сырое, но когда оно работает, это правда похоже на магию.
Вместо pdf здесь мог бы быть моё хранилище в Obsidian, книга которую я читаю, или что угодно ещё
PS. Включил здесь комментарии
Вместо pdf здесь мог бы быть моё хранилище в Obsidian, книга которую я читаю, или что угодно ещё
PS. Включил здесь комментарии
Очень крутой режим в приложении 01, демо которого можно посмотреть в этом видео — включаете приложение в фоне, оно постоянно слушает и транскрибирует всё что слышит, но ничего с транскриптом не делает и никуда его не отправляет, пока вы не нажмете кнопку и не скажете, что именно нужно сделать.
Пользовался бы я этим так (пока весь сетап, увы, несколько хлипкий и периодически разваливается): держал бы включенным, когда потребляю любой контент — аудио, видео, лекции. Сейчас для этих целей использую Limitless (это одно из лучших приложение для реалтайм-транскрибации, и они же планируют отдельное носимое устройство для этих целей).
Когда слышу что-то важное/интересно/нужное, жму на паузу, прошу суммаризировать, ответить на вопрос или, например, сохранить — факты, имена, вопросы в заметку в Obsidian.
Это похоже на фоновый режим, который OpenAI показывали в демо приложения ChatGPT, но так и не зарелизили.
Пользовался бы я этим так (пока весь сетап, увы, несколько хлипкий и периодически разваливается): держал бы включенным, когда потребляю любой контент — аудио, видео, лекции. Сейчас для этих целей использую Limitless (это одно из лучших приложение для реалтайм-транскрибации, и они же планируют отдельное носимое устройство для этих целей).
Когда слышу что-то важное/интересно/нужное, жму на паузу, прошу суммаризировать, ответить на вопрос или, например, сохранить — факты, имена, вопросы в заметку в Obsidian.
Это похоже на фоновый режим, который OpenAI показывали в демо приложения ChatGPT, но так и не зарелизили.
Telegram
Tool Using Ape
Выяснил параллельно, что OpenInterpreter передумали делать железку, которая вас слушает, и пивотнулись в приложение.
Уже сейчас, если повезет, можно собрать сетап, в котором вы сможете давать голосовые команды вашему компьютеру (даже находясь далеко от…
Уже сейчас, если повезет, можно собрать сетап, в котором вы сможете давать голосовые команды вашему компьютеру (даже находясь далеко от…
Как я грумлю заметки в Obsidian с помощью Cursor
У меня большая (7000+) база заметок в Obsidian, и буду откровенен — много где бардак, потемкинские деревни, навигационные заметки (maps of content) почти пустые, при этом некоторые из них весьма важные для моей жизни.
Просто информация про них раскидана по другим заметкам, и её может быть очень много.
Cursor буквально в 1-2 команды помогает вытащить всё, что про ту или иную тему было написано, и сам вставит это в заметку. А если какого-то контента не хватает, то можно запросить его сгенерировать прямо на месте, используя Claude 3.5 (но хорошо бы валидировать, конечно же, и помечать как сгенерированное).
У меня большая (7000+) база заметок в Obsidian, и буду откровенен — много где бардак, потемкинские деревни, навигационные заметки (maps of content) почти пустые, при этом некоторые из них весьма важные для моей жизни.
Просто информация про них раскидана по другим заметкам, и её может быть очень много.
Cursor буквально в 1-2 команды помогает вытащить всё, что про ту или иную тему было написано, и сам вставит это в заметку. А если какого-то контента не хватает, то можно запросить его сгенерировать прямо на месте, используя Claude 3.5 (но хорошо бы валидировать, конечно же, и помечать как сгенерированное).
Вот пример заметки, которая была пустой. В несколько запросов я собрал всё-всё, что есть в моей базе знаний, в одну довольно подробную карту контента. Кое-что пришлось поправить руками, но на 90% — получилось то, что нужно. Целый раздел, который я до этого не изучал, появился как следствие такого причёсывания.
Выгрузил её для вас в виде странички → https://brain.glebkalinin.com/default-mode-network/
Выгрузил её для вас в виде странички → https://brain.glebkalinin.com/default-mode-network/
Более четверти кода в Гугле генерирует AI, инженеры проверяют и принимают.
We're also using AI internally to improve our coding processes, which is boosting productivity and efficiency. Today, more than a quarter of all new code at Google is generated by AI, then reviewed and accepted by engineers. This helps our engineers do more and move faster.
—
Еще гораздо менее показательный, но тоже любопытный факт: 70% кода aider — инструмента создания кода с помощью ллм, написано при помощи самого aider (в мае было всего 7%).
Ии — это инструмент создания инструментов, и пока human-in-the-loop никуда не уходит, но задачи этого человека меняются (и как по мне, к лучшему — больше интересной высокоуровневой работы, реальной ценности)
We're also using AI internally to improve our coding processes, which is boosting productivity and efficiency. Today, more than a quarter of all new code at Google is generated by AI, then reviewed and accepted by engineers. This helps our engineers do more and move faster.
—
Еще гораздо менее показательный, но тоже любопытный факт: 70% кода aider — инструмента создания кода с помощью ллм, написано при помощи самого aider (в мае было всего 7%).
Ии — это инструмент создания инструментов, и пока human-in-the-loop никуда не уходит, но задачи этого человека меняются (и как по мне, к лучшему — больше интересной высокоуровневой работы, реальной ценности)
Новый выпуск подкаста — размышляем о том, чему и как учиться в ИИ.
И лаборатория наша собирается — в ноябре будем в очередной раз погружаться в мир генеративного ИИ и инструментов, доступных каждому.
И лаборатория наша собирается — в ноябре будем в очередной раз погружаться в мир генеративного ИИ и инструментов, доступных каждому.
AI Mindset: on bleeding edge of the possible
Онлайн-лаборатория по созданию и использованию AI-инструментов для управления знаниями
Forwarded from AI Mindset (Gleb Kalinin)
ИИ в обучение и обучение ИИ
Очередной выпуск нашего подкаста
В этот раз обсуждаем практические стратегии использования ИИ для личного развития и обучения. От ChatGPT до Claude Artifacts - смотрим на разнообразие инструментов и контекстов их применения.
Делимся личным опытом создания персонализированных систем обучения: как использовать ИИ для изучения языков, почему важно не просто автоматизировать, а глубоко и эмоциональновзаимодействовать с информацией. Представляем, как должен работать «второй мозг» в будущем (агентно).
Говорим про голосовые интерфейсы, телесное взаимодействие с ии и персонализированные модульные системы обучения. Приводим аргументы, почему ии-инструменты нужно осваивать уже сейчас, и как делать это эффективно и с уважением к нашей человеческой природе.
Слушать:
Youtube — Spotify — Apple Podcasts — Все площадки
Наша ИИ-лаборатория AI Mindset V — глубокое погружение в практику ИИ в ноябре
Очередной выпуск нашего подкаста
В этот раз обсуждаем практические стратегии использования ИИ для личного развития и обучения. От ChatGPT до Claude Artifacts - смотрим на разнообразие инструментов и контекстов их применения.
Делимся личным опытом создания персонализированных систем обучения: как использовать ИИ для изучения языков, почему важно не просто автоматизировать, а глубоко и эмоциональновзаимодействовать с информацией. Представляем, как должен работать «второй мозг» в будущем (агентно).
Говорим про голосовые интерфейсы, телесное взаимодействие с ии и персонализированные модульные системы обучения. Приводим аргументы, почему ии-инструменты нужно осваивать уже сейчас, и как делать это эффективно и с уважением к нашей человеческой природе.
Слушать:
Youtube — Spotify — Apple Podcasts — Все площадки
Наша ИИ-лаборатория AI Mindset V — глубокое погружение в практику ИИ в ноябре
YouTube
ИИ в обучении и обучение ИИ: личные стратегии. AI Mindset [podcast]
В новом выпуске подкаста мы погружаемся в тему использования искусственного интеллекта для личного развития и образования. Обсуждаем, как меняется подход к обучению с появлением ИИ-инструментов, и почему важно развивать навыки работы с ними уже сейчас.
Рассматриваем…
Рассматриваем…