tgoop.com/toolusing/152
Last Update:
Субъективный хит-парад ИИ-инструментов и сервисов, выпуск 01
В новой рубрике коротким списком делимся инструментами, которыми пользуемся каждый или почти каждый день. Добавляйте ваши варианты в комментариях.
Whispr Flow. Голосовой ввод done right. Умеет качественно расшифровывать аудио на нескольких языках, сам пополняет словарь, умеет выполнять ии-команды над выбранным текстом. Простая штука, но пользуюсь есть сотни раз в день. Есть версии для Windows и Mac, iOS дают тестировать платным пользователям.
Sesame conversational voice. Голосовой интерфейс будущего. Диалоги, которые хочется продолжить сразу же, как он закончится. Увы, пока что не продукт, а технологическое демо. Их отрытая модель
ChatGPT4.5. Интересные изменения произошли в работе с языком. Скармливаю ему несколько своих текстов, текст на английском, прошу перевести, и получаю результат, в котором впервые за всю нашу историю не хочется исправить почти ничего. Если текст не художественный — оптимально.
Grok. Я вынужден признать, что ЛЛМ Маска сейчас on par или лучше и OpenAI, из «коробки» умеет быстро искать в интернете, дает щедрые лимиты на deep research — благодаря нему, для меня deep research стал почти таким же привычным, как простой поиск. Когда это быстро и бесплатно, начинаешь пользоваться. Важное уточнение: свежее исследование показывает, что ни один deep research не может заменить ручной поиск — принимать решение на основании таких не стоит, во всяком не из одного рисерча).
Manus. Взорвавший интернет китайский ии-агент, который автономно решает задачи по поиску и обработке информации, написанию кода, создания презентаций, конвертации данных и даже тренировке простеньких нейросетей, как когда-то Devin. У агента есть изолированная виртуальная машина с ОС Ubuntu и правами на запуск написанного софта. Внутри агента, как выяснилось, Claude 3.7 с доступом к 29 инструментам, и работает он совсем не так безукоризненно, как хотелось бы (например, зависает, вероятно, из-за высокой нагрузки, или галлюцинирует), но всё это не важно. Совершенно очевидно, что манусоподобные агенты станут еще более способными (например, простое сочетание агента + MCP открывает почти бесконечные возможности для этих самых агентов). Пока что тормозить прогресс будут цены. Постоянно работающий агент — это не просто футуристично, но и требует энергии и серверных мощностей, но соприкоснуться.
Goose. Джек Дорси, основатель Твиттера, делает новый продукт с открытым кодом — локального ии-агента. Он тоже умеет пользоваться инструментами (например, на Маке может делать скриншоты или управлять календарем), писать и выполнять код, интегрироваться с MCP-серверами. Похож на OpenInterpreter и Aider.
Генерация картинок с Gemini 2.0. Cовершенно новый опыт. Новая мультимодальная нейросеть Гугла умеет то, что раньше было невозможно. Отмечу работу с текстом — прогресс и по сравнению с Flux, можно добавлять длинные тексты. Кажется, не так далеко до качественного генеративного дизайна. Доступно через AI Studio.
Windsurf. ИИ-редактор кода, ставший для меня вторым домом после Obsidian. Подключил к нему MCP, и теперь, например, я ставлю задачу на исследование, а MCP-сервер сам её решает, и закрывает по завершении. Когда в первый раз понял, что софт тебе не только помогает задачки декомпозировать, а реально их решить и сразу же закрыть — осознал, насколько это будет частью нашей реальности уже в ближайшие годы. Самовыполняющаяся работа? Будем еще от этого отбиваться. Windsurf рекомендую, больше чем Cursor, хотя и оба хороши. Для работы со знаниями и кодом — в этой среде особенно легко к нему переходить. За мои несколько месяцев с Windsurf, он стал значительно автономнее, и чаще без моего вмешательства справляется с ошибками.
Claude 3.7. Новая версия по-прежнему любимой по стилю и эстетике коммуникации модель. Вместе с MCP Claude из чат-бота превращается в мощного агента — легко и быстро можно загружать контент из внешних источников, управлять файловой системой и внешним софтом вроде blender, искать в интернете и по локальным файлам.