Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
Упускаем наверстанное

Пока я отдыхал в горах (об этом нужно сделать наверное отдельный пост), произошло много всего интересного, но не глобального.

Давайте по пунктам:
1️⃣ Европа (100ММ) и Восток(100ММ) включаются в AI гонку. А что это значит — это значит, что AI будет доступный как электричество. Цены будут падать, контроля за моделями не будет. Европа радует, но скорее всего большую часть денег получит Мистраль, но будем посмотреть.

2️⃣ Вышли новые модели — Gemini 2.0, o3, несколько мелких но интересных (еще планирую более подробно посмотреть). Судя по бенчмаркам стало лучше, но не кардинально.

3️⃣ R1 от DeepSeek перевернул игру со своим RL подходом и теперь, насколько я понимаю, линейных моделей (как GPT3/4/4.5) релизиться особо не будет. Ну и R1 API ожил вроде и можно уже как-то использовать. Открытые модели наступают на хвост фрондеру.

В ближайшие недели Твитер ждет GPT-4.5, Grok3, Claude4 и кучу еще всего.

OpenAI, как самый капиталоемкий из AI, генерит огромное количество драмы. Близкие к Президенту олигархи делают неприличные финансовые предложения и получают в ответ не менее неприличные финансовые предложения. Но земляки знают, что за неприличными финансовыми предложениями могут последовать не менее неприличные правовые последствия. Ну в общем увидим как оно у них там.
Отдых

Есть два типа людей -- одни не могут напрячься, другие не могут расслабиться. Я вот второй тип.
Ну знаете, на отдых с ноутом, работа ночами, убегание (в прямом смысле) от выгорания, родные сражаются за мое время шантажом, угрозами и слотами в календаре, отпуск воспринимается как непреодолимое бремя которое нужно просто пройти.

И тут я впервые за долгое время сгонял в отпуск как никогда раньше. Результат -- отличный, работоспособность сильно повысилась, есть ощущение что все не зря. Кароч вот что я сделал:

1. Купил билеты заренее (чтобы не было возможности отменить)
2. Стал говорить всем что ухожу в отпуск сразу после покупки билетов (чтобы чувство вины потом не сожрало)
3. Не тянул старые привычки в отпуск -- вставал рано, включал телефон только вечером, не пялился в ноут, не читал новостей, проводил качественное время с детьми


ВСЕ! У меня был такой релакс, которого никогда не было и отпуск реально помог.
Кто бы мог подумать, что если тревожиться по работе, то отдых не получается )) Тщательно рекомендую всем ходить в отпуск минимум 2 раза в год и полностью менять свои привычные действия на что-то непривычное. Всем успешного отдыха!
Минутка рекламы

Если вы разрабочик и как-то хотите вкатиться в AI (ну то есть наносить необратимую пользу миру с помощью LLM), то я тщательно рекомендую курс Рината Абдуллина (https://abdullin.com/ai-assistants-course). Он не только разложил по полочкам теорию, но и, благодаря своему реальному опыту, побил все на кирпичики, из которых можно делать что угодно. Нигде в англоязычном сегменте я не видел такой структуры, основанной на опыте. Если вы не хотите набивать шишки самостоятельно, то это для вас.

Кстати они еще проводят Rag Enterprise Challenge (https://github.com/trustbit/enterprise-rag-challenge) если кто-то хочет залететь и пропробовать поучаствовать в команде -- милости прошу к шалашу.
Alignment

Много релизов в последнее время. Не знаю как вас, а меня новые большие модели перестали удивлять.

Все превращается в медийную борьбу, реальная эффективность не на первом месте.

Grok3 не успел выйти, а злые языки говорят, что мол в тренировочные данные обильно плеснули пропаганды. А еще специфический алайнмент позволил залезть на первое место в llm arena. Кстати где пощупать этот самый грок3 по апи я так и не нашел. Наверное нигде.

DeepSeek наоборот очистили от коммунистических заветов КПК. И выложили веса в открытый доступ. Кстати кто ценит дипсик, но не хочет использовать их API — на OpenRouter есть масса провайдеров на любой вкус.

В следующие 30 дней мы можем ожидать

- gpt 4.5
- claude 4
- o1 pro
- llama 4
- deepseek v4

И еще кучу всего.
Grok III

Его Величество, Грок Третий (почти) зарелизился. Его тренировали на всех твиттер срачах земли и несколькосоттысяч карт.

Как и любая другая модель, эта лучше почти на всех тестах которые проводили авторы.

API чтобы попробовать его реально в деле пока нет, но я зарегался и буду ждать.

Кандидатский минимум 2025, такой как Reasoning, Structured Output, Function Calling есть в v2 (и надеемся останется в v3), но пока ничего более.

Из интересных применений -- доступ к данным твитора. Если нужно провести исследование мнений по этой замечательной соцсети, то это единственный инструмент для этого.

В остальном пока, вместе с Google, в разряде интересно, переспективно, но в хозяйстве пока неприменимо.
От создателей

Несколько документов, которые неплохо прочитать чтобы работать с LLMками (даже в cursor)
- Как промптить reasoning модели от OpenAI: https://platform.openai.com/docs/guides/reasoning-best-practices
- Как оптимизировать по точности от OpenAI: https://platform.openai.com/docs/guides/optimizing-llm-accuracy
- Как строить эффективные агенты от Anthropic: https://www.anthropic.com/research/building-effective-agents
- Книга рецептов от Anthropic: https://github.com/anthropics/anthropic-cookbook
- Как промптить gemini от Google: https://ai.google.dev/gemini-api/docs/prompting-strategies

Возможно что вы, как и я, не читали документы, которые публикуют у себя на сайтах в разделах документации создатели. В них содержится много интересного, рекомендую к прочтению.
Открытый регулировщик

Я люблю всякого рода рейтинги и топы. Они дают представление чего там происходит вообще в индустрии.
Не только же в твиторе слушать всяких проходимцев, нужно же смотреть и на объективные данные все-таки.

Принес вам суперинтересный топ, посмотреть чего люди делают:

https://openrouter.ai/

Кто знает, тот знает, а кто не знает, то это такое универсальное апи по которому можно разговаривать с любой LLM.
На главной странице они публикуют список приложений которые им пользуются, вместе с количеством токенов.
Первые -- это Cline и его клон. Суммарно за 30MM токенов. Куча романтического ролеплея на пару миллиардов токенов. Aider с 300М токенов. Пара чатов типа sillitavern и chubAI. Непонятный FractionAI. Есть даже AI Framework for Skyrim.

А еще можно пойти в Rankings и посмотреть какие модели нынче популярны. И на каких апах. А еще можно найти бесплатных токенов.

В общем 7 палочек регулировщика из 7
Claude 3.7

Я так понимаю, что эхо DeepSeek R1 все еще аукается, и компании решают по-бырому запилить thinking вместо того, чтобы зарелизить основные модели, которыми они занимаются все последнее время.

Тем не менее, с Claude это не (совсем) так. Это модель и линейная и рассуждающая. Поддерживающая все что поддерживала до этого и не поддерживающая Structured Output.

Но лично меня это волнует слабо, потому что мы ее для этого не используем. А используем мы ее в программировании. Я ее использовал в паре с R1, потому что на Polyglot бенчмарке это была SOTA (https://aider.chat/docs/leaderboards/)

Теперь топ возглавляет Claude 3.7 единолично, со стоимостью в 3 раза выше чем у 2-го места.

Я погонял пару миллионов токенов с Claude 3.7 и могу сказать, что моделька однозначно сильнее, и, что важно, быстрее.
Осторожно говорю, что это первый релиз в этом году, который действительно порадовал.

P.S. В Claude Code ожидаемо перегруз, жду
GPT-4.5

В доме, как пел классик, суета. Зарелизили GPT-4.5. Предсказуемо нагнали тучу графиков из которых стало понятно, что бенчмарки есть только на галлюцинации. Зато модель является SOTA по стоимости с рекордными 75$ за 1M input tokens.

Первые независимые тесты показывают, что все плохо. В рейтинге программирования Polyglot (https://aider.chat/docs/leaderboards/) модель уверенно вошла в ТОП10, пропустив вперед даже DeepSeek V3. И заняла второе место по стоимости.

Я думаю, что так выглядит стена. Для того, чтобы улучшить метрики на пару процентных пунктов приходится строить гигантские датацентры в пустыне и греть океан. Понятно, что GPT-4.5 не рассуждающая, что рассуждающая скорее всего побьет все известные бенчмарки на пару процентных пунктов, но стоимость вырастет экспоненциально.

Я пока не вижу как это может пригодиться хозяйке в быту. Ждем следующих релизов от команды DeepSeek (или другой), чтобы встряхнуть этот рынок.
Обогащение контекста

Если вам, как и мне, не безразличны справедливость и процветание человечества, то вы, как и я, порадуетесь за то, что создателям Реинфорсмент Леарнинга ака обучение с подкреплением, дали Нобелевку по физике премию Тьюринга (https://awards.acm.org/about/2024-turing). Тот самый Reinforcement Learning, который развернули в полную мощь парни из Китайского Коммунистического Хэдж Фонда DeepSeek и пошатали им американский фондовый рынок.

Мы живем в удивительное время, что ни говори. А в удивительное время, когда непонятно как жить дальше, иногда полезно заняться обогащением контекста. Мы ж не Иран, можем обогащать сколько влезет.
Что же это такое? Это добавление информации вместе со ссылками на источники прямо в промт ЛЛМке, чтобы она меньше придумывала и больше опиралась на эти самые источники и факты. Ну или чтобы покреативнее была, сами понимаете. Ну такие факты, которые общеизвестны, ну или которые можно загуглить.

Как в том абзаце наверху про премию Тьюринга, можно было бы вставить ссылку (https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf) на знаменитую книжку, которую написали авторы, а я, к сожалению, читал только в переводах и пересказах.

При всей кажущейся простоте и тривиальности задачи, она не проста и не тривиальна. Просто поискать в гугле совсем не просто, если на хоть каком-то объеме.

Я нашел несколько простых решений, которые подойдут пролетариату, а именно:
1️⃣ Perplexity (perplexity.ai) -- имеет несколько своих моделей и при запросе обращается к своим индексам, реально не ищет. Скорость ответа высокая. Может в ризонинг. Стоит по нынешним меркам недорого. Все про них знают кароч
2️⃣ OpenPerplex (https://openperplex.com/) -- молодой игрок. Ценник конский, но SDK удобный. Судя по всему они в реалтайме собирают запросы с поисковиков. В дискорде всего 113 человек
3️⃣ Tavily (https://tavily.com/) -- ищет по многим источникам. Даже неочевидным, таким как instagram и linkedin. Ценник конский. Но для некоторых проектов может подойти.
4️⃣ Gemini (https://ai.google.dev/gemini-api/docs/grounding?lang=python) -- может тоже искать по гуглу. Ценник конский.
5️⃣ Custom Google Search Engine (https://programmablesearchengine.google.com/about/) -- ну в общем вы можете сделать свой гугл и ходить за информацией туда. Или свой Бинг. Хотя не знаю зачем это вам.
6️⃣ GPT Researcher (https://gptr.dev/) -- то же самое что и Deep Research от Google OpenAI, но дома. Может искать много по чему, в том числе и, например, по Arxiv. За 5 минут и сколько-то там баксов сляпает вам отчет на любой вопрос.

Вам, может быть все это и не надо, а мне надо. А может и вам когда-то понадобится
Процветание человечества

Американское правительство настойчиво ищет способы экономического, правового и любого другого коллапса с любопытством 2-х летнего ребенка. Талантливый предприниматель с бензопилой режет бюджет страны настолько талантливо, что долг федерального правительства вырос еще лучше прежнего. Другие талантливые компании, которые должны были бы делать открытый AI, фокусируются на том, чтобы продать подписки подороже, постоянно прогревая публику, что мол будем делать подписки то по $2k, то по $10к. Другая талантливая американская компания, жалуется что плохие открытые китайские модели не такие хорошие как ее модели и их нужно запретить, а хорошие модели, то есть их, срочно внедрять во все возможные места. А то можно и не успеть.

Мне кажется что-то похожее испытывали мои родители, когда рушился советский союз. Новое время уже есть, а понимания как в нем жить еще нет.

А как у вас настроение?
Вирусы и креативность

Как я узнал буквально вчера, вирусы состоят из ДНК/РНК и белковой оболочки вокруг них. Ну то есть ничего лишнего. Чистый функционал.
Видимо такая дрянь и не давала мне покоя последние 3 недели. Но благодаря современной фарме и многократному игнорированию симптомов, я в полном порядке, спасибо всем кто беспокоился.

За это время не произошло почти ничего достаточного интересного, что могло бы меня вывести из писательской комы. Ну кроме:
1️⃣ DeepSeek тихо дропнули обновление V3 (https://huggingface.co/deepseek-ai/DeepSeek-V3-0324). Даже в новостях у себя на сайте поленились написать. Я сам не пробовал, но твиттерские хвалят. А еще идет слух что вот-вот (ближе к маю) дропнут R2 и там будет разрыв. Ну посмотрим, но разрывы не одобряем -- от них американский рынок краснеет.
2️⃣ Google уверенно спускается в долину и хочет поиметь весь рынок. Выпустил очередную вполне интересную модельку, которая умеет генерировать и редактировать изображения. Быстро и (пока) бесплатно. (https://ai.dev)
3️⃣ Tencent включился в гонку и тоже выпустил модельку. В лучших традициях невнятных бенчмарков, все бенчмарки невнятные. Но не в этом дело. Модель на архитектуре Mamba-Transformer, что по идее должно давать скорость и уменьшение галлюцинаций на длинных ответах (https://huggingface.co/spaces/tencent/Hunyuan-T1)
4️⃣ OpenAI в отсутствие видимых инноваций в области продуктов, делает прорывы в области монетизации. Несколько тысяч очень высокооплачиваемых людей из самых лучших школ усиленно трудятся чтобы подкрутить ценники. И спасибо на том, что ценники открытые без всяких там Book A Call with Our Specialist, а прямо написано что $600 за 1М токенов на выходе будет стоить o1-pro (https://platform.openai.com/docs/models/o1-pro). И кажется мне, что креатив в области ценообразования он не просто так, а потому что стены все еще нет и мы скоро заменим всех кожаных за компьютерами
5️⃣ Вайб-кодинг как явление пришло в соцсети с новыми креативными контентами. Пока что делать неясно -- то ли открывать курсы вайбкодинга, то ли предлагать исправлять необратимую пользу, которую эти вайбкодеры нанесут или уже нанесли народному хозяйству. Будем наблюдать.
Гугл уже спустился в долину

А кто это тут у нас такой новый и тихий? А это gemini-2.5-pro-exp-03-25, который по бенчмаркам теперь номер один почти во всех категориях. И судя по всему это не те бенчмарки где они всех побеждали в своих собственных попугаях, а прям настоящие бенчмарки не понарошку.

Всю серьезность подтверждают ограничения на модель -- всего 50 запросов в день не больше 5 в минуту на ai.dev

Отдельную радость мне доставило то, что указано место в Aider Polyglot и вроде как она сместила текущего лидера -- Sonnet 3.7. Но посмотрим как оно будет. 50 запросов в день вполне хватит чтобы попробовать его на своем Aider.

И да, там контекст -- миллион токенов.
Ситуация следующая
Графы и Цепи (Tech Content Warning)
Помните анекдот про то, Джона, которого никто не называл строителем, потому что он один раз что-то сделал с овцой?
Он о том, что репутация очень быстро теряется и потом вернуть её будет сложно (если вообще возможно).
В общем когда стало понятно, что LLM это новое что-то, быстро возникла плеяда новых продуктов. Тогда любое тяп-ляп и на гитхаб получало кучу звезд и инвестиции. LangChain был одним из первых таких продуктов.

На самом деле это библиотека, и, как видно из названия, авторы видели некую цепочку рассуждений / решений / и др действий AI, которая приводит к какому-то результату.

Я попробовал LangChain на версии 0.0.0 и осталось какое-то чувство, что это все лучше написать самому чем учить все эти придуманные авторами новые концепции, которые не очень то хорошо ложились на то как я видел мир.
Потом я периодически читал как в LangChain ломается то да се, в сообществе в общем-то ее хейтили и, как мне казалось, заслуженно.
А потом в общем мне понадобилось что-то по хозяйству сделать с AI. Я перепробовал несколько моднейших python инструментов и оказалось, что дедушка LangChain не так уж и плох. Они-то конечно двигались неуважительно, ломали совместимость и быстро выпускали новые версии, полные багов. Но то, что я вижу сейчас это походит на неплохую экосистему продуктов, которыми я и воспользовался.

В общем LangChain нужен для того, чтобы обращаться к LLM и решать с их помощью разные задачи -- там классифицировать чета или просто ответ получить. LangGraph нужен для того, чтобы это все держать в графе. Нафига? Даже авторам было сложно обьяснить и я нашел описание в FAQ внизу экрана LangGraph is an orchestration framework for complex agentic systems.

В общем если вам нужна надежность и воспроизводимость и у вас сложные "цепочки" AI операций, то мой рекомендасьон. LangChain рекомендую к использованию по умолчанию на любых проектах.

5 старых пердящих дедов из 5
OpenAI Codex

В городе новый шериф, братцы.
OpenAI пытается не только максимально нарастить свой подписочный бизнес, но и активно пытается осваивать новые направления.
Сегодня у меня в консоли OpenAI Codex (https://github.com/openai/codex). Я пропустил такой же тул от Anthropic, но тут решил попробовать.

Время проб совпало вместе с выходом новых моделей (o3 и o4-mini), о которых пока сказать ничего не могу, кроме того, что они на x% лучше на каких то бенчмарках. А на каких-то нет.
Но вернемся к этому Codex. Что же он может, а чего нет?

Он может работать прямо в терминале и пытаться выполнить поставленную задачу то тех пор пока не устанет или задача не будет выполнена.

Мой тест был простой -- починить сломаный репозиторий в котором не запускаются файлы. Я намеренно сделал пару ошибок и поставил задачу достаточно широко -- сделай чтобы работало.

Сначала он пошел не совсем туда, и стал копаться в том, что ему не нужно, но быстро понял и попробовал что-то запустить и уже получил ошибки, которые в несколько попыток пофиксил.

Это на самом деле впечатляет, потому что до этого другие агенты на других моделях не могли разобраться с этой проблемой. И еще впечатляет то, как он обходится с собственной памятью -- читает только те куски файлов, которые нужно.

Кажется, что они почти повторили WindSurf, только в консоли и на новой модели. Пользоваться в реальной жизни наверное будет сложно, поэтому я остаюсь на Aider.

Оценка: 4 новых шерифа из 5
Claude 4

Только что из источников не заслуживающих доверия стало известно, что релизнули Claude 4 Opus & Sonnet.

Я в последнее время испытываю крайнюю тоску от ничего не приносящих релизов. Надеюсь тут подвезут что-то стоящее.
Если же нет, то это значит что тейк про то что с Claude 3.5 просто фартануло может быть и правдой.

В общем ждем

Я еще тестирую параллельно Google Jules и OpenAI Codex (тот который в UI), скоро расскажу как оно (спойлер -- коряво и пока не очень полезно).
2025/07/06 00:41:03
Back to Top
HTML Embed Code: