Telegram Web
Шутки шутками, а у меня реально же куплено два сервера которые стоят сопоставимо с небольшим домом....
118😁5914🔥6😢5👍3💯1
😁207😢38🍓17💯9🤷‍♂1❤‍🔥1
слава богу техножрецов не бывает и технологии работают строго детерминирова... мда.
74😁14
Дневник админов
🔥7855
On the Theoretical Limitations of
Embedding-Based Retrieval


- TLDR универсальные эмбединги слабо скейлятся, нейронки нормально не репрезентят высокоранговое пространство, а BM25 да.
We give Gemini all 46 documents and all 1000 queries at once, asking it to output
the relevant documents for each query with one generation. We find that it can successfully solve
(100%) all 1000 queries in one forward pass. This is in contrast to even the best embedding models
with a recall@2 of less than 60%

А еще LLMки нормально ретривят. LM task is all u need again

paper
2👍41🔥10
криптоанархитсы: создают технологию, которая позволяет быть независимым от банков и анонимным

люди: а давайте прихуярим сюда вход по госууслугам и авторизацию по паспорту
💯209😁113😢7🔥3👏2😡2👍1🥴11
самая антисемтская шутка это вопрос почему в книжках по олимпиадной математики часто фигурирует суббота, 57, 239
😁107🔥17👍5
> MMLU-style SFT data which contains different question and answer examples
covering different knowledge topics;

да написали б честно - сиды из ммлу по топикам собрали

https://research.nvidia.com/labs/adlr/files/NVIDIA-Nemotron-Nano-2-Technical-Report.pdf


нахуя и главное зачем кроме смешной гибридной модели, которая ну типа в чем то лучше, но в среднем нет и инфры под нее нет.
😁11
Алекса Гордич (у него был топовый разбор flash attention) выкатил разбор vLLM. Почему оно едет быстрее остальных:

- Paged Attention + Continuous Batching. KV-кэш как "виртуальная память" (блоки, free_block_queue) и динамическая укладка запросов без right-padding снижает нагрузку на шину и память увеличивая полезный throughput.

- Планировщик с приоритетом decode. Начатые генерации обрабатываются первыми, как следствие ITL (inter-token latency) падает, система откликается живее.

- Chunked prefill. Длинные промпты режутся на куски и не монополизируют шаги движка.

- Prefix caching. Повторяющиеся префиксы (например, системные) не пересчитываются, а переиспользуются KV-блоки.

- Speculative decoding. Быстрая подача кандидатов (n-gram/EAGLE/Medusa) + одна верификация большой моделью, как итог больше токенов за шаг при статистической эквивалентности с обычным семплингом.

- Разнос Prefill/Decode. Разные профили нагрузки (compute-bound vs memory-bound) значит можно разводить по разным группам воркеров/нод, отдельно тюнить TTFT (time to first token) и ITL.

- CUDA Graphs снижают kernel-overhead.

- И еще многое другое здесь неупомянутое...

В общем, вся система - это набор умных инженерных хаков для максимального выжимания производительности из железа. Статья - это отличный гайд, как это всё работает вместе.

Статья: https://www.aleksagordic.com/blog/vllm

@learning_stones
1🔥62👍124❤‍🔥3🦄1
Хочу сделать крутой семинар на русском с вашими докладами, если у вас есть крутой доклад/статья - кидайте в @alexwortega
1🔥42🍓7❤‍🔥5💊3🥴1
Почитал кейс про Daisy (AI-сервис от red_mad_robot) на Хабре — неожиданно круто.

Сначала подумал, что это очередной ChatGPT в обёртке, а оказалось — под капотом нормальная инженерия: маршрутизация, векторки, свой фильтр безопасности, кастомные пайплайны, даже мультимодальность завезли.

Не «агенты» и не «продукт», а скорее площадка, на которой команда экспериментирует с UX взаимодействия с LLM — и делает это не на API-коленке, а с попыткой построить архитектуру уровня OpenAI (в меру сил, конечно).

📈 300к пользователей за полгода, 5к DAU, а фильтр блокирует около 15% сомнительных запросов — причём не по стоп-словам, а реально по смыслу. Тоже своя разработка.

📎 В статье неплохо расписано, как собирали разные модули в единую систему, описана маршрутизация и логические слои сервиса. Там и про архитектуру есть, и про юзкейсы, и про ограничения.

TL;DR: если вам интересно, как можно строить AI-сервис не вокруг модели, а вокруг сценариев — почитайте.
👏45🥴36💩24👍11🔥9😁96🥱3🌚3😐21
Deepresearch это rag здоворого человека и его надо проучивать, а не полагатся на базовое качество модели

Поищет, походит по ссылкам, уточнит, даст нормальный репорт. Делать его без трейсов - довольно тупое занятие которое ничем хорошим не кончится, китайцы надистилили трейсов и получилось хорошо и дешево. Хуже чем gpt5, но лучше всего остального + запускается на чем угодно.



paper
github
👍59🔥8
https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905

+ 256к контекста вместо 128к и выросли на агентских бенчах ощутимо
Что интересно - это по прежнему не ризонинг модель
👍233😁1
Forwarded from эйай ньюз
Несколько месяцев назад я ушёл из Meta GenAI, чтобы запустить свой стартап.

И сегодня будет первый шаг выхода из stealth-режима 🚀На самом деле он был уже вчера, но только сегодня добрался сделать пост на русском ;)

По традиции фруктового нейминга в AI комьюнити, я добавляю в корзину еще и персики — встречайте GenPeach.AI 🍑

Мы - Европейская GenAI ресерч лаба (headquater в Цюрихе), которая обучает свои собственные мультимодальные foundation модели (с нуля, не файнтюны). Цель наших моделей - дать юзерам безграничную творческую свободу и реализм в генерациях, который сейчас недоступен в других продуктах. Но и для application слоя у нас есть свои планы - ждите апдейтов:)

Другими словами, сейчас у нас фокус на том, чтобы добиться максимального реализма, котроля и эффективности в генерации фото- и видео-сцен с людьми.

Наши модельки еще готовятся, но мы уже открыли Waitlist для тех, кто хочет получить к ним доступ раньше других и поучаствовать в бета-тесте!

🚩 Чтобы записаться в Waitlist откройте бота: @genpeach_ai_bot

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁5325❤‍🔥10🥱65💩4🍓3🔥2👍1😡1
Forwarded from Denis T.
предлагаю свои услуги в качестве репетитора по "высшей математике" любого сорта (кроме, пожалуй, статистики и дифференциальных уравнений)

предпочтительны любые алгебраические темы, но и про дифференциальную геометрию тоже могу рассказать

Денис Терешкин, выпускник матфака ВШЭ, преподаватель НМУ

вопросы и предложения пишите на @indiscriminatefaith
🔥112😐522115👍6💩6🤔1💯1🍓1
🍓4833❤‍🔥64🆒22🌚1
newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization


толковый обзорный блогпост по квантизациям, вводят базовые понятия, довольно толково
👍45🔥9
🚀 Не стройте ракету, пока не собрали бумажный самолёт

Один из главных рисков в запуске IT-продукта — застрять в бесконечной доработке и не выйти на рынок.

В комьюнити Короче, Капитан делают по-другому.

Челлендж: 12 запусков за 12 месяцев.

Разработка и запуск — за 1 месяц
Минимальные вложения (средний бюджет на продвижение — $150)
Честный разбор: что получилось, а что — нет

Формула проста:
1 запуск = 1 функция = решение 1 проблемы

Три главных правила:
⚡️Проверенный спрос, а не догадки
⚡️ Быстрый запуск без перфекционизма
⚡️ Только США и ЕС — там платят за удобство

📎 Канал Короче, Капитан показывает запуск, продвижение и доход по каждому продукту в реальном времени.
🧩 Без иллюзий, без теорий — только работающие подходы и реальные цифры.

👉 Подписаться: @its_capitan

Реклама: ИП Зуев Игорь Владимирович, ИНН: 360408359441, Erid: 2VtzqwtR5xX
47🥴41💩22😐5🍓2😢1🆒1
2025/10/16 05:54:18
Back to Top
HTML Embed Code: