On the Theoretical Limitations of
Embedding-Based Retrieval
- TLDR универсальные эмбединги слабо скейлятся, нейронки нормально не репрезентят высокоранговое пространство, а BM25 да.
А еще LLMки нормально ретривят. LM task is all u need again
paper
Embedding-Based Retrieval
- TLDR универсальные эмбединги слабо скейлятся, нейронки нормально не репрезентят высокоранговое пространство, а BM25 да.
We give Gemini all 46 documents and all 1000 queries at once, asking it to output
the relevant documents for each query with one generation. We find that it can successfully solve
(100%) all 1000 queries in one forward pass. This is in contrast to even the best embedding models
with a recall@2 of less than 60%
А еще LLMки нормально ретривят. LM task is all u need again
paper
2👍41🔥10
самая антисемтская шутка это вопрос почему в книжках по олимпиадной математики часто фигурирует суббота, 57, 239
😁107🔥17👍5
> MMLU-style SFT data which contains different question and answer examples
covering different knowledge topics;
да написали б честно - сиды из ммлу по топикам собрали
https://research.nvidia.com/labs/adlr/files/NVIDIA-Nemotron-Nano-2-Technical-Report.pdf
нахуя и главное зачем кроме смешной гибридной модели, которая ну типа в чем то лучше, но в среднем нет и инфры под нее нет.
covering different knowledge topics;
да написали б честно - сиды из ммлу по топикам собрали
https://research.nvidia.com/labs/adlr/files/NVIDIA-Nemotron-Nano-2-Technical-Report.pdf
нахуя и главное зачем кроме смешной гибридной модели, которая ну типа в чем то лучше, но в среднем нет и инфры под нее нет.
😁11
Forwarded from Обучаем Камни
Алекса Гордич (у него был топовый разбор flash attention) выкатил разбор vLLM. Почему оно едет быстрее остальных:
- Paged Attention + Continuous Batching. KV-кэш как "виртуальная память" (блоки, free_block_queue) и динамическая укладка запросов без right-padding снижает нагрузку на шину и память увеличивая полезный throughput.
- Планировщик с приоритетом decode. Начатые генерации обрабатываются первыми, как следствие ITL (inter-token latency) падает, система откликается живее.
- Chunked prefill. Длинные промпты режутся на куски и не монополизируют шаги движка.
- Prefix caching. Повторяющиеся префиксы (например, системные) не пересчитываются, а переиспользуются KV-блоки.
- Speculative decoding. Быстрая подача кандидатов (n-gram/EAGLE/Medusa) + одна верификация большой моделью, как итог больше токенов за шаг при статистической эквивалентности с обычным семплингом.
- Разнос Prefill/Decode. Разные профили нагрузки (compute-bound vs memory-bound) значит можно разводить по разным группам воркеров/нод, отдельно тюнить TTFT (time to first token) и ITL.
- CUDA Graphs снижают kernel-overhead.
- И еще многое другое здесь неупомянутое...
В общем, вся система - это набор умных инженерных хаков для максимального выжимания производительности из железа. Статья - это отличный гайд, как это всё работает вместе.
Статья: https://www.aleksagordic.com/blog/vllm
@learning_stones
- Paged Attention + Continuous Batching. KV-кэш как "виртуальная память" (блоки, free_block_queue) и динамическая укладка запросов без right-padding снижает нагрузку на шину и память увеличивая полезный throughput.
- Планировщик с приоритетом decode. Начатые генерации обрабатываются первыми, как следствие ITL (inter-token latency) падает, система откликается живее.
- Chunked prefill. Длинные промпты режутся на куски и не монополизируют шаги движка.
- Prefix caching. Повторяющиеся префиксы (например, системные) не пересчитываются, а переиспользуются KV-блоки.
- Speculative decoding. Быстрая подача кандидатов (n-gram/EAGLE/Medusa) + одна верификация большой моделью, как итог больше токенов за шаг при статистической эквивалентности с обычным семплингом.
- Разнос Prefill/Decode. Разные профили нагрузки (compute-bound vs memory-bound) значит можно разводить по разным группам воркеров/нод, отдельно тюнить TTFT (time to first token) и ITL.
- CUDA Graphs снижают kernel-overhead.
- И еще многое другое здесь неупомянутое...
В общем, вся система - это набор умных инженерных хаков для максимального выжимания производительности из железа. Статья - это отличный гайд, как это всё работает вместе.
Статья: https://www.aleksagordic.com/blog/vllm
@learning_stones
1🔥62👍12⚡4❤🔥3🦄1
Хочу сделать крутой семинар на русском с вашими докладами, если у вас есть крутой доклад/статья - кидайте в @alexwortega
1🔥42🍓7❤🔥5💊3🥴1
Почитал кейс про Daisy (AI-сервис от red_mad_robot) на Хабре — неожиданно круто.
Сначала подумал, что это очередной ChatGPT в обёртке, а оказалось — под капотом нормальная инженерия: маршрутизация, векторки, свой фильтр безопасности, кастомные пайплайны, даже мультимодальность завезли.
Не «агенты» и не «продукт», а скорее площадка, на которой команда экспериментирует с UX взаимодействия с LLM — и делает это не на API-коленке, а с попыткой построить архитектуру уровня OpenAI (в меру сил, конечно).
📈 300к пользователей за полгода, 5к DAU, а фильтр блокирует около 15% сомнительных запросов — причём не по стоп-словам, а реально по смыслу. Тоже своя разработка.
📎 В статье неплохо расписано, как собирали разные модули в единую систему, описана маршрутизация и логические слои сервиса. Там и про архитектуру есть, и про юзкейсы, и про ограничения.
TL;DR: если вам интересно, как можно строить AI-сервис не вокруг модели, а вокруг сценариев — почитайте.
Сначала подумал, что это очередной ChatGPT в обёртке, а оказалось — под капотом нормальная инженерия: маршрутизация, векторки, свой фильтр безопасности, кастомные пайплайны, даже мультимодальность завезли.
Не «агенты» и не «продукт», а скорее площадка, на которой команда экспериментирует с UX взаимодействия с LLM — и делает это не на API-коленке, а с попыткой построить архитектуру уровня OpenAI (в меру сил, конечно).
📈 300к пользователей за полгода, 5к DAU, а фильтр блокирует около 15% сомнительных запросов — причём не по стоп-словам, а реально по смыслу. Тоже своя разработка.
📎 В статье неплохо расписано, как собирали разные модули в единую систему, описана маршрутизация и логические слои сервиса. Там и про архитектуру есть, и про юзкейсы, и про ограничения.
TL;DR: если вам интересно, как можно строить AI-сервис не вокруг модели, а вокруг сценариев — почитайте.
Хабр
Все LLM в одном окне: как мы сделали AI-сервис Daisy
Знакомьтесь, Daisy — наш сервис для быстрого доступа ко всем передовым LLM. Он вырос из инициативы друзей, которым хотелось разобраться, какие пользовательские сценарии работают в GenAI и как сделать...
👏45🥴36💩24👍11🔥9😁9 6🥱3🌚3😐2 1
Deepresearch это rag здоворого человека и его надо проучивать, а не полагатся на базовое качество модели
Поищет, походит по ссылкам, уточнит, даст нормальный репорт. Делать его без трейсов - довольно тупое занятие которое ничем хорошим не кончится, китайцы надистилили трейсов и получилось хорошо и дешево. Хуже чем gpt5, но лучше всего остального + запускается на чем угодно.
paper
github
Поищет, походит по ссылкам, уточнит, даст нормальный репорт. Делать его без трейсов - довольно тупое занятие которое ничем хорошим не кончится, китайцы надистилили трейсов и получилось хорошо и дешево. Хуже чем gpt5, но лучше всего остального + запускается на чем угодно.
paper
github
👍59🔥8
Love. Death. Transformers.
Deepresearch это rag здоворого человека и его надо проучивать, а не полагатся на базовое качество модели Поищет, походит по ссылкам, уточнит, даст нормальный репорт. Делать его без трейсов - довольно тупое занятие которое ничем хорошим не кончится, китайцы…
Nvidia
Universal Deep Research
Website for the project 'Universal Deep Research: Bring Your Own Model and Strategy'
1🍓19 13😁6
https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905
+ 256к контекста вместо 128к и выросли на агентских бенчах ощутимо
Что интересно - это по прежнему не ризонинг модель
+ 256к контекста вместо 128к и выросли на агентских бенчах ощутимо
Что интересно - это по прежнему не ризонинг модель
👍23 3😁1
Forwarded from эйай ньюз
Несколько месяцев назад я ушёл из Meta GenAI, чтобы запустить свой стартап.
И сегодня будет первый шаг выхода из stealth-режима 🚀На самом деле он был уже вчера, но только сегодня добрался сделать пост на русском ;)
По традиции фруктового нейминга в AI комьюнити, я добавляю в корзину еще и персики — встречайте GenPeach.AI 🍑
Мы - Европейская GenAI ресерч лаба (headquater в Цюрихе), которая обучает свои собственные мультимодальные foundation модели (с нуля, не файнтюны). Цель наших моделей - дать юзерам безграничную творческую свободу и реализм в генерациях, который сейчас недоступен в других продуктах. Но и для application слоя у нас есть свои планы - ждите апдейтов:)
Другими словами, сейчас у нас фокус на том, чтобы добиться максимального реализма, котроля и эффективности в генерации фото- и видео-сцен с людьми.
Наши модельки еще готовятся, но мы уже открыли Waitlist для тех, кто хочет получить к ним доступ раньше других и поучаствовать в бета-тесте!
🚩 Чтобы записаться в Waitlist откройте бота: @genpeach_ai_bot
@ai_newz
И сегодня будет первый шаг выхода из stealth-режима 🚀На самом деле он был уже вчера, но только сегодня добрался сделать пост на русском ;)
По традиции фруктового нейминга в AI комьюнити, я добавляю в корзину еще и персики — встречайте GenPeach.AI 🍑
Мы - Европейская GenAI ресерч лаба (headquater в Цюрихе), которая обучает свои собственные мультимодальные foundation модели (с нуля, не файнтюны). Цель наших моделей - дать юзерам безграничную творческую свободу и реализм в генерациях, который сейчас недоступен в других продуктах. Но и для application слоя у нас есть свои планы - ждите апдейтов:)
Другими словами, сейчас у нас фокус на том, чтобы добиться максимального реализма, котроля и эффективности в генерации фото- и видео-сцен с людьми.
Наши модельки еще готовятся, но мы уже открыли Waitlist для тех, кто хочет получить к ним доступ раньше других и поучаствовать в бета-тесте!
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁53 25❤🔥10🥱6 5💩4🍓3🔥2👍1😡1
Forwarded from Denis T.
предлагаю свои услуги в качестве репетитора по "высшей математике" любого сорта (кроме, пожалуй, статистики и дифференциальных уравнений)
предпочтительны любые алгебраические темы, но и про дифференциальную геометрию тоже могу рассказать
Денис Терешкин, выпускник матфака ВШЭ, преподаватель НМУ
вопросы и предложения пишите на @indiscriminatefaith
предпочтительны любые алгебраические темы, но и про дифференциальную геометрию тоже могу рассказать
Денис Терешкин, выпускник матфака ВШЭ, преподаватель НМУ
вопросы и предложения пишите на @indiscriminatefaith
🔥112😐52 21 15👍6💩6🤔1💯1🍓1
newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
толковый обзорный блогпост по квантизациям, вводят базовые понятия, довольно толково
толковый обзорный блогпост по квантизациям, вводят базовые понятия, довольно толково
👍45🔥9
🚀 Не стройте ракету, пока не собрали бумажный самолёт
Один из главных рисков в запуске IT-продукта — застрять в бесконечной доработке и не выйти на рынок.
В комьюнити Короче, Капитан делают по-другому.
Челлендж: 12 запусков за 12 месяцев.
✅ Разработка и запуск — за 1 месяц
✅ Минимальные вложения (средний бюджет на продвижение — $150)
✅ Честный разбор: что получилось, а что — нет
Формула проста:
1 запуск = 1 функция = решение 1 проблемы
Три главных правила:
⚡️Проверенный спрос, а не догадки
⚡️ Быстрый запуск без перфекционизма
⚡️ Только США и ЕС — там платят за удобство
📎 Канал Короче, Капитан показывает запуск, продвижение и доход по каждому продукту в реальном времени.
🧩 Без иллюзий, без теорий — только работающие подходы и реальные цифры.
👉 Подписаться: @its_capitan
Реклама: ИП Зуев Игорь Владимирович, ИНН: 360408359441, Erid: 2VtzqwtR5xX
Один из главных рисков в запуске IT-продукта — застрять в бесконечной доработке и не выйти на рынок.
В комьюнити Короче, Капитан делают по-другому.
Челлендж: 12 запусков за 12 месяцев.
✅ Разработка и запуск — за 1 месяц
✅ Минимальные вложения (средний бюджет на продвижение — $150)
✅ Честный разбор: что получилось, а что — нет
Формула проста:
1 запуск = 1 функция = решение 1 проблемы
Три главных правила:
⚡️Проверенный спрос, а не догадки
⚡️ Быстрый запуск без перфекционизма
⚡️ Только США и ЕС — там платят за удобство
📎 Канал Короче, Капитан показывает запуск, продвижение и доход по каждому продукту в реальном времени.
🧩 Без иллюзий, без теорий — только работающие подходы и реальные цифры.
👉 Подписаться: @its_capitan
Реклама: ИП Зуев Игорь Владимирович, ИНН: 360408359441, Erid: 2VtzqwtR5xX
Telegram
Короче, капитан – Запускаем мини-приложения
Веду проекты на 1млн+ юзеров.
Устроил челлендж по запуску 12 маленьких IT-проектов за 12 месяцев. Показываю как разрабатываем, где продвигаем, что зашло и что не очень. Делюсь метриками, которые обычно скрывают.
Связь с автором: @ig_zuev
Устроил челлендж по запуску 12 маленьких IT-проектов за 12 месяцев. Показываю как разрабатываем, где продвигаем, что зашло и что не очень. Делюсь метриками, которые обычно скрывают.
Связь с автором: @ig_zuev