Nothing ever happenes
https://www.anthropic.com/research/anthropic-economic-index-september-2025-report
Версия для России тут
https://www.tgoop.com/theworldisnoteasy/2216
https://www.anthropic.com/research/anthropic-economic-index-september-2025-report
Версия для России тут
https://www.tgoop.com/theworldisnoteasy/2216
😁21🍓1
Forwarded from LLM Arena
Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты.
— 82,2% проводят собственные проверки и используют бенчмарки только как дополнительный сигнал.
— 26,7% принципиально не опираются на рейтинги.
— Лишь около 18% обращаются к агрегаторам по типу llmstats
Главные критерии выбора AI-решений для продуктов: качество + цена + скорость, устойчивость без галлюцинаций и совместимость с инфраструктурой
P.S. Огромная благодарность всем, кто помогал собирать данные для исследования, а также авторам и энтузиастам, помогающим его популязировать. Замечания по исследованию и предложения по будущим рисёрч-проектам можно оставить здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚪️ White Circle
Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома
Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
- 🍴 100-150к USD год
Вакансия:
Data Scientist / Analyst
Scraping, Metabase, BI, Python, Selenium, ETL, LLMs
📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома
Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
- 🍴 100-150к USD год
Вакансия:
Data Scientist / Analyst
Scraping, Metabase, BI, Python, Selenium, ETL, LLMs
📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
🥱47 7👍3🍓3🌚2💩1 1
Forwarded from CV Time
Эволюция Florence: от генеративных моделей к MLLM
Сегодня разберём сразу две статьи о семействе моделей Florence: что такое Florence-2 и как авторы использовали её в VLM.
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Это cемейство VLM-моделей появилось в 2023 году. По сути, это и была VLM, хотя сам термин тогда ещё не вошёл в широкое употребление. Показательно, что в Florence-2 авторы сделали ставку не на архитектуру, а на огромный и качественно собранный датасет FLD-5B.
В основе архитектуры — обычная схема энкодер-декодер-трансформер. Разве что схему VLM авторы нарисовали не так, как принято в 2025-м.
Вся суть статьи в пайплайне обработки данных. Авторы сформулировали множество разных задач в формате «текст на входе — текст на выходе». Так всю разметку можно условно поделить на три группы:
— понимание картинки в целом (classification, captioning, VQA) — семантика;
— умение локализовать объект (object detection, segmentation, referring expression comprehension) — геометрия;
— поиск и детекция объектов по набору признаков (text grounding) — семантика + геометрия.
Пайплайн обработки данных, с помощью которого получили обучающий датасет — на первой иллюстрации к посту:
1. первичная аннотация с помощью специализированных моделей (детекторы, OCR, сегментаторы);
2. фильтрация данных той же нейросетью: исправляют ошибки, удаляют ненужные аннотации;
3. итеративный процесс уточнения данных всё той же нейросетью.
FLD-5B состоит из 5 млн аннотаций, 126 млн изображений, 500 млн текстовых аннотаций, 1,3 млн текстовых аннотаций для локализации объекта на изображении и 3,6 млн текстовых аннотаций для поиска и детекции объектов по набору признаков.
Как итог, Florence-2 умеет делать 10+ задач (OCR, detection, segmentation, Caption to Phrase Grounding и др.) и довольно редко галлюцинирует. Однако, в отличие от современных VLM, она не справляется со сложными инстрактами, потому что не училась этому. Да и инстракты может принимать небольшие.
Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion
Во второй статье авторы предлагают простую идею — использовать в качестве энкодера в VLM Florence-2. Причина проста: эта модель явно училась на OCR, детекцию и сегментацию, в отличие от CLIP/SigLIP (хотя SigLIP2 уже училась с next token prediction).
Заменить Image Encoder на Florence несложно. Нужно трижды инферить Image Encoder — по одному разу для получения признаков с прицелом на OCR, детекцию и сегментацию. Дальше фичи конкатенируются и пропускаются через projection (DBFusion), чтобы получить желаемое число каналов. Так появилось семейство Florence-VL. Подробнее — на второй иллюстрации к посту.
В результате Florence-VL демонстрирует высокую согласованность визуального энкодера и LLM, превосходя другие модели по 25 критериям. В том числе в задачах распознавания объектов, понимания семантики, распознавания текста и построения диаграмм.
Идея интересная, но, как показало время, не прижилась. Видимо, из-за того, что при таком подходе растёт число операций для получения фичей.
Разбор подготовил❣ Егор Шестопалов
CV Time
Сегодня разберём сразу две статьи о семействе моделей Florence: что такое Florence-2 и как авторы использовали её в VLM.
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Это cемейство VLM-моделей появилось в 2023 году. По сути, это и была VLM, хотя сам термин тогда ещё не вошёл в широкое употребление. Показательно, что в Florence-2 авторы сделали ставку не на архитектуру, а на огромный и качественно собранный датасет FLD-5B.
В основе архитектуры — обычная схема энкодер-декодер-трансформер. Разве что схему VLM авторы нарисовали не так, как принято в 2025-м.
Вся суть статьи в пайплайне обработки данных. Авторы сформулировали множество разных задач в формате «текст на входе — текст на выходе». Так всю разметку можно условно поделить на три группы:
— понимание картинки в целом (classification, captioning, VQA) — семантика;
— умение локализовать объект (object detection, segmentation, referring expression comprehension) — геометрия;
— поиск и детекция объектов по набору признаков (text grounding) — семантика + геометрия.
Пайплайн обработки данных, с помощью которого получили обучающий датасет — на первой иллюстрации к посту:
1. первичная аннотация с помощью специализированных моделей (детекторы, OCR, сегментаторы);
2. фильтрация данных той же нейросетью: исправляют ошибки, удаляют ненужные аннотации;
3. итеративный процесс уточнения данных всё той же нейросетью.
FLD-5B состоит из 5 млн аннотаций, 126 млн изображений, 500 млн текстовых аннотаций, 1,3 млн текстовых аннотаций для локализации объекта на изображении и 3,6 млн текстовых аннотаций для поиска и детекции объектов по набору признаков.
Как итог, Florence-2 умеет делать 10+ задач (OCR, detection, segmentation, Caption to Phrase Grounding и др.) и довольно редко галлюцинирует. Однако, в отличие от современных VLM, она не справляется со сложными инстрактами, потому что не училась этому. Да и инстракты может принимать небольшие.
Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion
Во второй статье авторы предлагают простую идею — использовать в качестве энкодера в VLM Florence-2. Причина проста: эта модель явно училась на OCR, детекцию и сегментацию, в отличие от CLIP/SigLIP (хотя SigLIP2 уже училась с next token prediction).
Заменить Image Encoder на Florence несложно. Нужно трижды инферить Image Encoder — по одному разу для получения признаков с прицелом на OCR, детекцию и сегментацию. Дальше фичи конкатенируются и пропускаются через projection (DBFusion), чтобы получить желаемое число каналов. Так появилось семейство Florence-VL. Подробнее — на второй иллюстрации к посту.
В результате Florence-VL демонстрирует высокую согласованность визуального энкодера и LLM, превосходя другие модели по 25 критериям. В том числе в задачах распознавания объектов, понимания семантики, распознавания текста и построения диаграмм.
Идея интересная, но, как показало время, не прижилась. Видимо, из-за того, что при таком подходе растёт число операций для получения фичей.
Разбор подготовил
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥21🔥5 2💊1
FP8 на Blackwell/Hopper на 150 Tflops становится быстрее с именем kernel содержащик "cutlass"
И ДРУГИЕ ОХУИТЕЛЬНЫЕ ОПТИМИЗАЦИИ)))
github
И ДРУГИЕ ОХУИТЕЛЬНЫЕ ОПТИМИЗАЦИИ)))
github
😁68 20⚡5❤🔥1🔥1
https://www.anthropic.com/engineering/a-postmortem-of-three-recent-issues
охуеть просто охуеть, имажинируйте закатить ллм управлять дроном боевым/ root права дать??
ладно, у меня никогда особо иллюзий на тему стабильности инференса нейронок не было, но это буквально лидеры индустрии
2. Output corruption
On August 25, we deployed a misconfiguration to the Claude API TPU servers that caused an error during token generation. An issue caused by a runtime performance optimization occasionally assigned a high probability to tokens that should rarely be produced given the context, for example producing Thai or Chinese characters in response to English prompts, or producing obvious syntax errors in code. A small subset of users that asked a question in English might have seen "สวัสดี" in the middle of the response, for example.
This corruption affected requests made to Opus 4.1 and Opus 4 on August 25-28, and requests to Sonnet 4 August 25–September 2. Third-party platforms were not affected by this issue.
Resolution: We identified the issue and rolled back the change on September 2. We've added detection tests for unexpected character outputs to our deployment process.
охуеть просто охуеть, имажинируйте закатить ллм управлять дроном боевым/ root права дать??
ладно, у меня никогда особо иллюзий на тему стабильности инференса нейронок не было, но это буквально лидеры индустрии
2. Output corruption
On August 25, we deployed a misconfiguration to the Claude API TPU servers that caused an error during token generation. An issue caused by a runtime performance optimization occasionally assigned a high probability to tokens that should rarely be produced given the context, for example producing Thai or Chinese characters in response to English prompts, or producing obvious syntax errors in code. A small subset of users that asked a question in English might have seen "สวัสดี" in the middle of the response, for example.
This corruption affected requests made to Opus 4.1 and Opus 4 on August 25-28, and requests to Sonnet 4 August 25–September 2. Third-party platforms were not affected by this issue.
Resolution: We identified the issue and rolled back the change on September 2. We've added detection tests for unexpected character outputs to our deployment process.
Anthropic
A postmortem of three recent issues
This is a technical report on three bugs that intermittently degraded responses from Claude. Below we explain what happened, why it took time to fix, and what we're changing.
🍓16 16🥴4
Forwarded from Denis Sexy IT 🤖
Полезная ссылка: 1000 (тысяча) схем архитектур агентов на LLM – одних только кодовых агентов ~120 штук:
https://altsoph.com/pp/aps/#
А тут как автор делал подборку
https://altsoph.com/pp/aps/#
А тут как автор делал подборку
Altsoph
1K+ schemas of agentic projects
1K+ schemas of agentic projects reconstructed from users posts on frameworks-related subreddits
1🔥38😨7💩4👍3😁2🍓1
Идея собственно моя, а исполнил https://www.tgoop.com/pabloradini/3717
11😍139😁77🔥21💩12🥴8💊7💯3💋3👍2👏1💔1
This media is not supported in your browser
VIEW IN TELEGRAM
прикиньте несколько сотен человек фигачили шейдеры, редизайнили чтобы выглядело как кислотный трип из vista
🥴129👍11🗿8🔥2😁2💩1 1
Несколько лет назад я наблюдал обучение диффузии в одной не очень богатой на карты, но очень богатой организации, и чтобы дешевле проводить архитектурные экспы с диффузией(тогда еще UNET не до конца устоялись, это было до sd1.3) слои инициализировались прошлыми моделями. Ну типа у нас есть уже какие то CONVs, какие то Linear, какие то Cross attn, давайте заберем их с модели которая уже пробежала что то, порешейпим и заработает.
А тут выходит работа где челы показывают все тоже самое, только для DIT и показывают что можно довольно сильно менять архитектуру за <2% претрейн бюджета.
Потом авторы какой то очередной гибридный attn придумывают.
Работа интересна своими аблейшенами + тем что еще один метод перестает быть маргинальным
https://arxiv.org/pdf/2506.05340
А тут выходит работа где челы показывают все тоже самое, только для DIT и показывают что можно довольно сильно менять архитектуру за <2% претрейн бюджета.
Потом авторы какой то очередной гибридный attn придумывают.
Работа интересна своими аблейшенами + тем что еще один метод перестает быть маргинальным
https://arxiv.org/pdf/2506.05340
👍68🔥7❤🔥4