- Telegram Web

AI.Insaf

Structured output с помощью схем Pydantic в агентах - уже давно база. Но оказывается тут пошли дальше: с его помощью управляют и ризонингом, и роутингом, и оркестрацией. Подход назвали Schema-Guided Reasoning (SGR). Как бонус, за счёт более строгого управления процессом, чем простым промптом, получаются более надёжные пайплайны. Очень хорошо описано здесь (там цикл статей). Удивительно, но статью на arxiv не нашёл

👍9🔥5🤔1

645 views06:59

AI.Insaf

В начале октября удалось съездить в Армению 🇦🇲 и Черногорию 🇲🇪

Армения запомнилась горой Арарат, которая видна, наверное, отовсюду, а также своими церквями и осколками Римской империи (этого на фото не будет). Съездить на 3–4 дня оптимально: как раз есть возможность посмотреть город и поездить по окрестностям.

В Черногории жили сразу в трёх прибрежных городах, где, конечно же, очень красиво, особенно в старых городах Будвы и Котора (снова римский след). Люди там живут на вечном чилле (не мы)

❤13🔥11💘8👍3

465 views14:28

AI.Insaf

Достойный блог для досуга от бывшего CTO noname компании, хотя он много где работал, включая Uber, Digg и Yahoo

Moving from an orchestration-heavy to leadership-heavy management role
Анализирует переход менеджера от роли, где он просто распределяет задачи (orchestration), к роли, где он активно участвует в выявлении проблем, их решении и построении стратегии. (problem discovery/selection с solution discovery помимо solution selection и execution с ongoing revision)

Good engineering management is a fad (fad = прогрев) и Career Advice 2025
Атрибуты хорошего менеджера меняются в зависимости от потребностей бизнеса, и здесь важно подстраиваться (см история с LLM). Эта идея перекликается с советами из статьи про карьерные советы о необходимости меняться, так как рынок уже не такой, как 10 лет назад

Components of engineering strategy
Инженерная стратегия создается не интуитивно, а путем последовательного выполнения шагов: исследования, оценки текущего состояния, тестирования, финализации решения с учетом компромиссов, и внедрение. Но странно, что сюда не добавили эффекты/измерения, иначе зачем строить вундервафлю, сразу видно инженерный подход

Productivity in the Age of Hypergrowth / How to evolve an engineering organization / Engineering cost model
Как строить структуры компаний, оценивать людей и т.д. Автор пушит стратегию найма на уровень N-1 при уходе сильных специалистов, но с учетом веса для соблюдения заложенного баланса людей разного уровня. При этом принятие решений по структуре должно исходить из оценки влияния на бизнесовые показатели.

Lethain

Irrational Exuberance

Hey folks, I’m Will Larson! I wrote An Elegant Puzzle, Staff Engineer, The Engineering Executive’s Primer, and Crafting Engineering Strategy. You might also be interested in my collection of popular blog posts over the years, or to read my writing as it’s…

👍4🔥2🤔1

515 views10:29

AI.Insaf

Открытые сезона новогодних корпоративов 🎉

Серьезная подготовка, ребята закодили аналог игры 100к1 с llm’ми чтобы объединять похожие ответы 😎

👍6😁1🤝1

479 views09:39

AI.Insaf

Forwarded from Big Ledovsky | блог DS лида

Вчера от Авито проводили мероприятие-вечеринку для DS тимлидов и менеджеров. Было много друзей и знакомых, много с кем познакомился впервые.

Сразу хочу извиниться, что кого-то не позвали. Собирать гостей на ивенты без открытой регистрации дело не самое простое.

Душевный получился вечер. Одной из наших целей было создавать сильное комьюнити вокруг нас, и я считаю это удалось.

#lifestyle@big_ledovsky

🔥13❤4👍2

594 views09:39

AI.Insaf

Интересный обзор архитектур open-source LLM за 2025г The Big LLM Architecture Comparison Забавно, как каждая из моделей по-своему комбинирует уже известные подходы, придуманные еще в прошлых года, при этом получая разнонаправленное влияние на метрики (Qwen3…

Follow-up статья: что придумали помимо базовых декодерных авторегрессионных моделей в современных LLM. Спойлер: не особо много чего.

Linear Attention Hybrids – замена базового квадратичного аттеншена на линейный. KV-кэш оптимизирован лучше, но метрики немного просели. Первые вариации придумали еще в 2020, хех (см. Qwen3-Next, DeepSeek V3.2 и т.д.).

Text Diffusion Models – теоретически дают выигрыш за счёт параллельной генерации, но на практике результаты хуже из-за проблем с моделированием сложных условных вероятностей. К тому же не работает Chain of Thought, про который рассказывают уже даже на бизнесовых докладах.

Small Recursive Transformers – красиво решают головоломки. Возможно, будут использоваться как тулзы для больших моделей, но пока это больше красивая история – хотя модели сильно меньше 100млн

Code World Models – LLM для кодинга, которые внутри себя моделируют то, как будет работать код. На деле – увеличение compute, и результат выходит то на то по сравнению с классическими подходами, но звучит красиво

👍7❤3🔥2🙏1

2.26K views09:53

AI.Insaf

Глобальная память в LLM

Память нужна ai агентам, чтобы сохранять долгосрочный контекст из прошлых и текущих взаимодействий, учитывая, что при раздувании контекстного окна факты начинают забываться

1. Обзор подходов
Отличный вводный доклад от dealerAI о том, как работать с памятью, можно посмотреть здесь. По сути, есть несколько ключевых способов с своими +/-:
• Суммаризация с помощью LLM
• NER
• Agentic memory
• Длинный контекст
• RAG как память
• Function calling

В целом, с суммаризацией возникает проблема промптинга: сложно определить, что именно хранить в памяти. NER и Agentic memory сложны в реализации. Длинный контекст страдает от проблем со скоростью и забыванием. У RAG те же проблемы, что и у обычного поиска (объем данных, релевантность), но потенциал есть.
В докладе фокус сделан на Function calling с памятью, организованной как Key-Value хранилище, в которое можно добавлять, обновлять или удалять записи. Правда, для этого потребовалось дообучать модель через LoRA`у. Важно покрыть все этапы метриками и тестами. Иначе можно построить сложное решение там, где более простой подход работал бы быстрее и, возможно, качественнее

2. Индустриальные решения: MemGPT arxiv -> Letta github link

По сути, это фреймворк, где память разделяют на два блока: быструю (Core Memory), которая as is идет в контекст с фокусом на последние взаимодействия, и медленную (Archival Memory), к которой обращаются при необходимости. Также предусмотрены функции забывания. Если документов мало (до 10), это не так критично, но если данных много (100x), такая умная память не деградирует в точности. Решение в опенсорсе, но интересно скорее как архитектурный концепт

3. A-Mem: Agentic Memory for LLM Agents arxiv link

Это можно считать идейным продолжением MemGPT. Фокус сделан на имитации человеческой памяти: при появлении нового факта он не просто добавляется к старому, а модифицирует его. Например, если в памяти было "Живу в Казани", а пришло "Живу в Москве", эти факты объединяются в конструкцию: "Жил в Казани, а теперь в Москве". Звучит красиво как дополнение/альтернатива RAG.
Итог: x3 по метрике F1 и в 16 раз меньше токенов при работе с памятью.

4. Реализация лучше через LangMem
В доках разбираются разные виды памяти, работа с ней, хранение (storage) и тд. Память - это дорого и долго, поэтому лучше обрабатывать её асинхронно, в идеале - после завершения диалога.

Выводы: всё это звучит как большая инженерная задача. Описанные выше методы ориентированы в основном на chat-like решения. Для специфических задач, скорее всего, придется ориентироваться на кастомное решение или в будущем будет какое-то встроенное решения в api

❤12👍7🔥7🤯1

341 viewsedited 12:53

AI.Insaf

Глобальная память в LLM Память нужна ai агентам, чтобы сохранять долгосрочный контекст из прошлых и текущих взаимодействий, учитывая, что при раздувании контекстного окна факты начинают забываться 1. Обзор подходов Отличный вводный доклад от dealerAI о том…

Недавно завершилось соревнование по памяти в LLM для диалогов – GigaMemory: global memory for LLM (хабр)

Основной метрикой выступала Accuracy.

1-е место (86,6%) Вместо классического RAG для каждого чанка текста модели отдельно задают вопрос: Релевантен ли этот текст заданному вопросу?. Модель должна ответить токеном Да или Нет. По logprobs этих токенов рассчитывается уровень уверенности. В итоге возвращается список чанков, где уверенность выше порога 0.5. На основе этой информации формируется первичный ответ, который затем используется для итогового решения.

2-е место (84,5%) Подход технически сложнее, но концептуально похож на решение победителя.

3-е место (74,5%) Классический RAG с энкодером bge-m3 – этого оказалось достаточно для призового места.

Решения звучат интересно, но кажется в топ 2 решениях, под каждый запрос все прошлые диалоги перечитываются заново, а не берутся из уже готовой краткой выжимки 🤔

Хабр

GigaMemory на AI Journey Contest 2025: итоги

Приветствуем всех! С вами снова ML-команда RnD для B2C SberAI. Этой осенью в рамках AI Journey Contest 2025 мы представили задачу GigaMemory: global memory for LLM. Её цель — создание автономного...

❤6🔥5👍1

1.88K views19:08

2025/12/11 18:14:31
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>