Forwarded from Kali Novskaya
С наступающим! Такие далекие и такие своевременные шутки прямиком из 80х, журнал "Крокодил"
Grok 2
Неожиданно для себя протестировал Grok2. Он доступен для всех кто в Твиторе. Для тех, кто в X тоже доступен.
Он нигде не показывал себя хорошо в бенчмарках, поэтому я как-то откладывал, хоть он уже и достаточно давно доступен.
Знаете, что самое интересное в нем? Это доступ к контенту, причем достаточно свежему.
Не секрет, что новости иногда в твиттере появляются раньше чем в других СМИ, поэтому это интересно.
Я просто попросил рассказать последние новости и прошелся по списку ссылок -- все новости более-менее свежие (1-2 дня). То есть задача сделать быструю выжимку последних новостей. Жаль что мне показывало выжимки из агрегаторов, но я попробую повозиться и получить свежий незамутненный поток технологических (и экономических) новостей прямо мне в подсознание.
Пока ставлю 3 грута из 4-х.
Неожиданно для себя протестировал Grok2. Он доступен для всех кто в Твиторе. Для тех, кто в X тоже доступен.
Он нигде не показывал себя хорошо в бенчмарках, поэтому я как-то откладывал, хоть он уже и достаточно давно доступен.
Знаете, что самое интересное в нем? Это доступ к контенту, причем достаточно свежему.
Не секрет, что новости иногда в твиттере появляются раньше чем в других СМИ, поэтому это интересно.
Я просто попросил рассказать последние новости и прошелся по списку ссылок -- все новости более-менее свежие (1-2 дня). То есть задача сделать быструю выжимку последних новостей. Жаль что мне показывало выжимки из агрегаторов, но я попробую повозиться и получить свежий незамутненный поток технологических (и экономических) новостей прямо мне в подсознание.
Пока ставлю 3 грута из 4-х.
UnminifyGPT
В нормальных языках есть компиляция, а в Javascript -- минификация или аглификация. Ну сделать то есть такой страшный код чтобы никто не мог прочитать.
Так вот мне понадобилось (не спрашивайте зачем) сделать нормальный читабельный js из минифицированного, чтобы понять чего там происходит. И с помощью o1-mini (потому что в o3 еще не пустили), я попытался восстановить код в так сказать первозданном виде. Так вот все получилось. Не сразу и в пару-тройку заходов, но получилось.
Теперь у меня следующий проект -- кормлю фотку человека и данные о нем и его семье и подбираем пароль от телефона и пин карты.
В нормальных языках есть компиляция, а в Javascript -- минификация или аглификация. Ну сделать то есть такой страшный код чтобы никто не мог прочитать.
Так вот мне понадобилось (не спрашивайте зачем) сделать нормальный читабельный js из минифицированного, чтобы понять чего там происходит. И с помощью o1-mini (потому что в o3 еще не пустили), я попытался восстановить код в так сказать первозданном виде. Так вот все получилось. Не сразу и в пару-тройку заходов, но получилось.
Теперь у меня следующий проект -- кормлю фотку человека и данные о нем и его семье и подбираем пароль от телефона и пин карты.
DeepSeek Model
Я слежу за последними моделями, и особенно за теми, которые позволяют хорошо программировать.
Мой стандартный воркфлоу включает cursor -- просто для редактирования, я отказался от подписки -- и aider с различными моделями. Я перепробовал gpt4o, o1, Claude, Gemini и вот настал час DeepSeek.
Мои личные предпочтения оставались на claude, хоть я и отмечал, что моделька от гугла тоже ничего. И вот, когда на сегодняший день я сжег больше миллиона токенов на DeepSeek, я могу сказать вот что.
На сайте (https://api-docs.deepseek.com/news/news1226) они позиционируют себя как best value on the market, с чем я полностью согласен.
Если вам нужна моделька для вашего aider или cursor (как подключить будет в комментарии), моделька уровня claude, без ВПНов и прочего, за десятую часть стоимости -- это отличный выбор.
Я слежу за последними моделями, и особенно за теми, которые позволяют хорошо программировать.
Мой стандартный воркфлоу включает cursor -- просто для редактирования, я отказался от подписки -- и aider с различными моделями. Я перепробовал gpt4o, o1, Claude, Gemini и вот настал час DeepSeek.
Мои личные предпочтения оставались на claude, хоть я и отмечал, что моделька от гугла тоже ничего. И вот, когда на сегодняший день я сжег больше миллиона токенов на DeepSeek, я могу сказать вот что.
На сайте (https://api-docs.deepseek.com/news/news1226) они позиционируют себя как best value on the market, с чем я полностью согласен.
Если вам нужна моделька для вашего aider или cursor (как подключить будет в комментарии), моделька уровня claude, без ВПНов и прочего, за десятую часть стоимости -- это отличный выбор.
Сэм Альтман пишет...
Что в переводе с древнего означает, что в 2025 первых агентов наймут на работу вместо или вместе с людьми. Ну не тех агентов смитов из матрицы, а агентов-2025. Мне нравится следующее определение
Агенты -- это программы, которые имеют доступ к некоторым ресурсам и с их помощью успешно решают некоторую поставленную задачу.
Ну то есть говоришь агенту -- забронируй мне столик -- он идет и бронит. Возможно даже звонит и голосом интересуется есть ли столик, слушает, диктует твое имя и телефон. Прикольно? Прикольно!
Но есть один очень математический нюанс.
Если агенту нужно сделать что-то, состоящее из 5 шагов, а вероятность того, что шаг будет сделан успешно равна 85%, то вероятность успешного завершения цепочки чуть больше 44% (0.85^5). Вы бы стали пользоваться чем-то, что как в известном фильме заходит 50 на 50?
То есть для успешного агентского опыта нам нужны или очень простые задачи или очень серьезные модели с высокой точностью.
Как по мне концепт классный, но возможно внеэкономический, а значит до массового применения должны произойти еще какие-то сдвиги.
We are now confident we know how to build AGI as we have traditionally understood it. We believe that, in 2025, we may see the first AI agents “join the workforce” and materially change the output of companies. We continue to believe that iteratively putting great tools in the hands of people leads to great, broadly-distributed outcomes.
Что в переводе с древнего означает, что в 2025 первых агентов наймут на работу вместо или вместе с людьми. Ну не тех агентов смитов из матрицы, а агентов-2025. Мне нравится следующее определение
Агенты -- это программы, которые имеют доступ к некоторым ресурсам и с их помощью успешно решают некоторую поставленную задачу.
Ну то есть говоришь агенту -- забронируй мне столик -- он идет и бронит. Возможно даже звонит и голосом интересуется есть ли столик, слушает, диктует твое имя и телефон. Прикольно? Прикольно!
Но есть один очень математический нюанс.
Если агенту нужно сделать что-то, состоящее из 5 шагов, а вероятность того, что шаг будет сделан успешно равна 85%, то вероятность успешного завершения цепочки чуть больше 44% (0.85^5). Вы бы стали пользоваться чем-то, что как в известном фильме заходит 50 на 50?
То есть для успешного агентского опыта нам нужны или очень простые задачи или очень серьезные модели с высокой точностью.
Как по мне концепт классный, но возможно внеэкономический, а значит до массового применения должны произойти еще какие-то сдвиги.
ChatGPT tasks
OpenAI движется в сторону супераппа. Сегодня для всех пользователей с платными подписками выкатывают tasks.
Напомнить о тренировке каждое утро? Написать 3 причины идти на работу? Или 5 отмазок для руководителя ? Да пожалуйста.
Сейчас данные пользователя пока не доступны для апы, но добавить календарь, почту и туду лист и связать с сири и будет вполне мобильный секретарь.
Такие агенты в 1-2 шага, лишенные проблем из поста ранее.
Как будет доступно — попробуем.
OpenAI движется в сторону супераппа. Сегодня для всех пользователей с платными подписками выкатывают tasks.
Напомнить о тренировке каждое утро? Написать 3 причины идти на работу? Или 5 отмазок для руководителя ? Да пожалуйста.
Сейчас данные пользователя пока не доступны для апы, но добавить календарь, почту и туду лист и связать с сири и будет вполне мобильный секретарь.
Такие агенты в 1-2 шага, лишенные проблем из поста ранее.
Как будет доступно — попробуем.
DeepSeek R
Ребята.... Это полный восторг. Китайские товарищи из фирмы DeepSeek выпустили новую чудесную модель.
Я получил в своем
Я просто дурею с этой прикормки
За эту сессию я бы отдал OpenAI где-то 35 баксов, а это за полтора дня.
Теперь к ощущениям, а бенчмарков пока не будет:
- Быстрее, чем o1
- Очень хорошее следование инструкциям, лучше DeepSeek V3 это точно
- Как будто бы модель более опытная что-ли. Ну то есть я делаю совсем ленивые промты с 30-ю файлами в контексте, а все равно результат получается отличный
Что плохо:
- Буквы е в слове
- Сказала что 9.11 > 9.9 и из разность равна 0.21
Вот пейпер, хотя если вы знаете что такое пейпер, вы и так его читали (https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf)
Попробовать можно тут: http://deepseek.com
Работает без регистрации и смс если с акком от гугла.
Ребята.... Это полный восторг. Китайские товарищи из фирмы DeepSeek выпустили новую чудесную модель.
Я получил в своем
aider
что-то лучше, чем o1, но за цену в 30 раз меньше!Я просто дурею с этой прикормки
Tokens: 27k sent, 1.0k received. Cost: $0.0040 message, $1.17 session.
За эту сессию я бы отдал OpenAI где-то 35 баксов, а это за полтора дня.
Теперь к ощущениям, а бенчмарков пока не будет:
- Быстрее, чем o1
- Очень хорошее следование инструкциям, лучше DeepSeek V3 это точно
- Как будто бы модель более опытная что-ли. Ну то есть я делаю совсем ленивые промты с 30-ю файлами в контексте, а все равно результат получается отличный
Что плохо:
- Буквы е в слове
длинношеее
не посчитала- Сказала что 9.11 > 9.9 и из разность равна 0.21
Вот пейпер, хотя если вы знаете что такое пейпер, вы и так его читали (https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf)
Попробовать можно тут: http://deepseek.com
Работает без регистрации и смс если с акком от гугла.
GitHub
DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1
Contribute to deepseek-ai/DeepSeek-R1 development by creating an account on GitHub.
Big Bucks
Большие дяди пилят большие бабки, а именно проект Stargate, который громко анонсировал Трамп (я даже смотрел прессуху) и пообещали 100 миллиардов баксов потратить на инфраструктуру для AI.
Лично для меня тут много странного -- обычно государство должно строить инфраструктуру, а не коммерческие компании. Злые языки говорят, что у присутствовавших нет таких денег. Странно было также отсутствие google и microsoft у которых вложение в их инфраструктуру хотя бы сравнимые. 10 зданий датацентров я не очень понимаю как можно назвать инфраструктурой, учитывая, что железо по нынешним меркам устаревает за год. Ну да ладно, их деньги.
Интересно другое, что не заметили многие комментаторы, что Трамп упомянул, что это лишь часть инвестиционного пакета на 3 триллиона и он сказал что надеется что до конца года будет 6. С учетом состояния государственных финансов США я не думаю что это деньги государственные, скорее это тоже будут частные инвестиции. При ставке в 4.5% эти инвестиции должны приносить гигантскую прибыль. Пока она не очень видна, но посмотрим на выход Operator от OpenAI который по слухам запланирован в этот четверг.
Может быть правда идея в том, чтобы заместить всех компуторщиков?
UPD. На самом деле нет. Например прибыль NVidia за 2024 равна $86B, что в общем-то дает понимание размера пирога. Деньги будут
Большие дяди пилят большие бабки, а именно проект Stargate, который громко анонсировал Трамп (я даже смотрел прессуху) и пообещали 100 миллиардов баксов потратить на инфраструктуру для AI.
Лично для меня тут много странного -- обычно государство должно строить инфраструктуру, а не коммерческие компании. Злые языки говорят, что у присутствовавших нет таких денег. Странно было также отсутствие google и microsoft у которых вложение в их инфраструктуру хотя бы сравнимые. 10 зданий датацентров я не очень понимаю как можно назвать инфраструктурой, учитывая, что железо по нынешним меркам устаревает за год. Ну да ладно, их деньги.
Интересно другое, что не заметили многие комментаторы, что Трамп упомянул, что это лишь часть инвестиционного пакета на 3 триллиона и он сказал что надеется что до конца года будет 6. С учетом состояния государственных финансов США я не думаю что это деньги государственные, скорее это тоже будут частные инвестиции. При ставке в 4.5% эти инвестиции должны приносить гигантскую прибыль. Пока она не очень видна, но посмотрим на выход Operator от OpenAI который по слухам запланирован в этот четверг.
Может быть правда идея в том, чтобы заместить всех компуторщиков?
UPD. На самом деле нет. Например прибыль NVidia за 2024 равна $86B, что в общем-то дает понимание размера пирога. Деньги будут
Winsurf
Пока весь мир занят вопросом почему, несмотря на все вербальные интервенции со стороны США, биткоин не растет, я потестил этот ваш Windsurf.
Сразу чем отличается от остальных:
1️⃣ Крутой UX, лучше по моему мнению чем у курсора. Все классно и понятно.
2️⃣ Редактирование нескольких файлов из коробки. Просто работает.
3️⃣ Контекстом управлять нельзя. Оно там как-то само решает что отправить в модельку
4️⃣ Свои модельки нельзя. Свои ключи нельзя. В рамках подписки доступны Gpt4o и Claude, с ограниченным количество запросов, выраженных в непонятных попугаях. Кажется, то при интенсивной работе этого хватит на неделю
В общем я пока остаюсь на Aider несмотря на действительно крутое UI решения и гладкую работу на игрушечном проекте
Ставим 4🏄♂️ из 5
Пока весь мир занят вопросом почему, несмотря на все вербальные интервенции со стороны США, биткоин не растет, я потестил этот ваш Windsurf.
Сразу чем отличается от остальных:
1️⃣ Крутой UX, лучше по моему мнению чем у курсора. Все классно и понятно.
2️⃣ Редактирование нескольких файлов из коробки. Просто работает.
3️⃣ Контекстом управлять нельзя. Оно там как-то само решает что отправить в модельку
4️⃣ Свои модельки нельзя. Свои ключи нельзя. В рамках подписки доступны Gpt4o и Claude, с ограниченным количество запросов, выраженных в непонятных попугаях. Кажется, то при интенсивной работе этого хватит на неделю
В общем я пока остаюсь на Aider несмотря на действительно крутое UI решения и гладкую работу на игрушечном проекте
Ставим 4🏄♂️ из 5
LOC by LLM
А сколько сейчас реально кода пишется с помощью LLM?
Недавно amazon и гугл флексили цифрами в районе 50%. Но я бы сказал, что в этих цифрах больше маркетинга, чем реально калькуляции.
На пикче к посту реальный график реального проекта, который уже больше половину НОВОГО кода пишет с помощью LLM. Основной прирост % кода написаного AI пришелся на конец лета 2024 года.
Сам автор проекта признается, что ему понадобилось некоторе время чтобы приспособиться к новому способу работы с кодом, но как видно, сейчас работа пошла поживее.
А как на ваших проектах?
А сколько сейчас реально кода пишется с помощью LLM?
Недавно amazon и гугл флексили цифрами в районе 50%. Но я бы сказал, что в этих цифрах больше маркетинга, чем реально калькуляции.
На пикче к посту реальный график реального проекта, который уже больше половину НОВОГО кода пишет с помощью LLM. Основной прирост % кода написаного AI пришелся на конец лета 2024 года.
Сам автор проекта признается, что ему понадобилось некоторе время чтобы приспособиться к новому способу работы с кодом, но как видно, сейчас работа пошла поживее.
А как на ваших проектах?
Gemini Thinking
Пока одни хайпуют на R1, другие пишут эссе, а третьи обвиняют DeepSeek (авторов R1) в том что они все украли, я просто грущу.
Потому что очевидно, что мировая популярность не сказалась хорошо на стабильности и доступности сервиса, а возвращаться назад на дорогие моему сердцу и кошельку модели мне не хочется.
Что же еще предлагает простому пользователю мировая конкуренция?
Гугл тихо и незаметно недавно выпустила новую модель, которая называется
В aider она, по моим ощущениям не сильно хуже R1. Только в моем случае по какой-то причине она была достаточно медленная. В общем на сегодняшний момент кроме claude sonnet есть как минимум DeepSeek R1 (если работает), Gemini Flash Thinking Exp 01-021, Gemini exp 1206, DeepSeek V3.
Модели OpenAI в мой персональный топ по написанию кода не попали. Ну штош, ждем o3.
Пока одни хайпуют на R1, другие пишут эссе, а третьи обвиняют DeepSeek (авторов R1) в том что они все украли, я просто грущу.
Потому что очевидно, что мировая популярность не сказалась хорошо на стабильности и доступности сервиса, а возвращаться назад на дорогие моему сердцу и кошельку модели мне не хочется.
Что же еще предлагает простому пользователю мировая конкуренция?
Гугл тихо и незаметно недавно выпустила новую модель, которая называется
Gemini Flash Experimental Thinking exp 01-21
. Модель кстати заняла первые места в vision и language категориях на арене (llmarena.ai).В aider она, по моим ощущениям не сильно хуже R1. Только в моем случае по какой-то причине она была достаточно медленная. В общем на сегодняшний момент кроме claude sonnet есть как минимум DeepSeek R1 (если работает), Gemini Flash Thinking Exp 01-021, Gemini exp 1206, DeepSeek V3.
Модели OpenAI в мой персональный топ по написанию кода не попали. Ну штош, ждем o3.