Forwarded from Machinelearning
⚡️ Ling-flash-2.0 теперь в открытом доступе! ⚡️
Модель на 100B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной в вычислительной нагрузке.
🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.
⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).
https://huggingface.co/inclusionAI/Ling-flash-2.0
@ai_machinelearning_big_data
#moe #llm #ml #ai #opensource
Модель на 100B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной в вычислительной нагрузке.
🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.
⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).
https://huggingface.co/inclusionAI/Ling-flash-2.0
@ai_machinelearning_big_data
#moe #llm #ml #ai #opensource
👍4❤2🔥2
🔥 Новая модель: Ring-mini-2.0
📊 При размере всего 16B параметров (и лишь **1.4B активных**) модель показывает уровень рассуждений, сравнимый с плотными моделями до 10B.
На ключевых бенчмарках:
- LiveCodeBench, AIME 2025, GPQA, ARC-AGI-v1
Ring-mini-2.0 обходит все плотные модели <10B и даже соперничает с более крупными MoE-моделями (например, gpt-oss-20B-medium), особенно в задачах логического мышления.
⚡ Дополнительно — команда vibe на базе Ring-mini-2.0 в anycoder собрала быстрый чат-приложение, демонстрируя практические возможности модели.
Ring-mini-2.0 — ещё один шаг к компактным, но мощным reasoning-моделям, которые легко запускать и интегрировать.
#AI #LLM #RingMini #Reasoning #MoE
https://huggingface.co/spaces/akhaliq/Ring-mini-2.0
📊 При размере всего 16B параметров (и лишь **1.4B активных**) модель показывает уровень рассуждений, сравнимый с плотными моделями до 10B.
На ключевых бенчмарках:
- LiveCodeBench, AIME 2025, GPQA, ARC-AGI-v1
Ring-mini-2.0 обходит все плотные модели <10B и даже соперничает с более крупными MoE-моделями (например, gpt-oss-20B-medium), особенно в задачах логического мышления.
⚡ Дополнительно — команда vibe на базе Ring-mini-2.0 в anycoder собрала быстрый чат-приложение, демонстрируя практические возможности модели.
Ring-mini-2.0 — ещё один шаг к компактным, но мощным reasoning-моделям, которые легко запускать и интегрировать.
#AI #LLM #RingMini #Reasoning #MoE
https://huggingface.co/spaces/akhaliq/Ring-mini-2.0
🔥3👍2
📚 Университеты под ударом ИИ
В Великобритании за 4 года число вакансий для выпускников рухнуло со 180 000 до 55 000. Автоматизация рутинных задач снижает потребность в молодых специалистах - и вместе с этим падает спрос на дипломы.
ИИ "срезает" нижние ступени интеллектуальной работы: помощников юристов, аналитиков, координаторов, копирайтеров. Исчезает входная точка, ради которой раньше шли в университет.
Связка "обучение → гарантированная работа" рушится.
При этом университеты завязаны на дорогие кампусы, администрацию и исследовательские расходы. Эта модель тяжело перестраивается под падающий спрос.
В итоге ценность диплома снижается, долги остаются, а ROI многих программ обнуляется. Особенно сильно страдают средние вузы — их вытесняют AI курсы и практические стажировки, которые дают реальное портфолио и работу быстрее.
telegraph.co.uk/news/2025/09/17/universities-are-doomed-but-there-is-one-silver-lining/
В Великобритании за 4 года число вакансий для выпускников рухнуло со 180 000 до 55 000. Автоматизация рутинных задач снижает потребность в молодых специалистах - и вместе с этим падает спрос на дипломы.
ИИ "срезает" нижние ступени интеллектуальной работы: помощников юристов, аналитиков, координаторов, копирайтеров. Исчезает входная точка, ради которой раньше шли в университет.
Связка "обучение → гарантированная работа" рушится.
При этом университеты завязаны на дорогие кампусы, администрацию и исследовательские расходы. Эта модель тяжело перестраивается под падающий спрос.
В итоге ценность диплома снижается, долги остаются, а ROI многих программ обнуляется. Особенно сильно страдают средние вузы — их вытесняют AI курсы и практические стажировки, которые дают реальное портфолио и работу быстрее.
telegraph.co.uk/news/2025/09/17/universities-are-doomed-but-there-is-one-silver-lining/
👍9❤4🔥3😢1
🔥 Внимание! Тут реальный шанс испытать свои модели на данных из мира криптофинансов.
Overnight.fi запускает соревнование ETH/USDC Predictions – конкурс прогнозирования курса пары ETH/USDC. Отличный шанс применить свои скиллы для решения прикладной задачи в DeFi.
Призовой фонд – $2,500, $1,500, $1,000 за три лучшие модели 🎉. Регистрация уже открыта, все подробности на странице соревнования.
👉 Детали соревнования: https://linkly.link/2F5sD
Overnight.fi запускает соревнование ETH/USDC Predictions – конкурс прогнозирования курса пары ETH/USDC. Отличный шанс применить свои скиллы для решения прикладной задачи в DeFi.
Призовой фонд – $2,500, $1,500, $1,000 за три лучшие модели 🎉. Регистрация уже открыта, все подробности на странице соревнования.
👉 Детали соревнования: https://linkly.link/2F5sD
Overnight Workspace on Notion
🏆 Overnight Finance Challenge: ETH/USDC Predictions | Notion
📋 Обзор
🤔2😁1
🚀 Оптимизация Sparse Attention для LLM
Flash Sparse Attention (FSA) предлагает эффективную реализацию нативного разреженного внимания, улучшая производительность на современных GPU. Этот репозиторий включает уникальный дизайн ядра, который минимизирует объем памяти и вычислений, что позволяет значительно ускорить обработку.
🚀 Основные моменты:
- Эффективная реализация для LLM на GPU.
- Уменьшение объема памяти и вычислений.
- Поддержка различных размеров групп GQA.
- Оптимизированный Triton-код для повышения производительности.
📌 GitHub: https://github.com/Relaxed-System-Lab/Flash-Sparse-Attention
@machinelearning_ru
Flash Sparse Attention (FSA) предлагает эффективную реализацию нативного разреженного внимания, улучшая производительность на современных GPU. Этот репозиторий включает уникальный дизайн ядра, который минимизирует объем памяти и вычислений, что позволяет значительно ускорить обработку.
🚀 Основные моменты:
- Эффективная реализация для LLM на GPU.
- Уменьшение объема памяти и вычислений.
- Поддержка различных размеров групп GQA.
- Оптимизированный Triton-код для повышения производительности.
📌 GitHub: https://github.com/Relaxed-System-Lab/Flash-Sparse-Attention
@machinelearning_ru
👍3
🌍 Универсальный трансформер для физики
Обычно ML-модели для физики узкие: одна работает только с жидкостями, другая — с теплопереносом. Для нового сценария приходится всё обучать заново.
📌 В этой работе показывают другое:
- Один трансформер после обучения справляется сразу с разными задачами — жидкости, ударные волны, теплообмен, многокомпонентные среды.
- Поддерживает zero-shot: может работать с новыми условиями и ситуациями, которых не видел раньше.
- Остаётся стабильным даже при длинных симуляциях до 50 шагов, тогда как другие модели быстро «ломаются».
⚙️ Как он устроен:
- Смотрит несколько последних кадров и сам выводит правила эволюции системы.
- Использует патчи в пространстве и времени, attention для дальних связей и конечные разности для локальных изменений.
- Тренируется на разных наборах (потоки, тепло, препятствия, мультифазные среды) с нормализацией и случайными промежутками времени.
📊 Результат: он превосходит UNet и Fourier Neural Operator — ударные волны остаются чёткими, вихри устойчивыми, где другие модели размывают картину. Без дополнительного обучения работает даже на сверхзвуковых потоках.
⚠️ Пока ограничения есть: только 2D, фиксированное разрешение и фокус на жидкостях. Но подход указывает путь к модели «**обучи один раз — используй где угодно**» для физики.
📄 https://arxiv.org/abs/2509.13805
Обычно ML-модели для физики узкие: одна работает только с жидкостями, другая — с теплопереносом. Для нового сценария приходится всё обучать заново.
📌 В этой работе показывают другое:
- Один трансформер после обучения справляется сразу с разными задачами — жидкости, ударные волны, теплообмен, многокомпонентные среды.
- Поддерживает zero-shot: может работать с новыми условиями и ситуациями, которых не видел раньше.
- Остаётся стабильным даже при длинных симуляциях до 50 шагов, тогда как другие модели быстро «ломаются».
⚙️ Как он устроен:
- Смотрит несколько последних кадров и сам выводит правила эволюции системы.
- Использует патчи в пространстве и времени, attention для дальних связей и конечные разности для локальных изменений.
- Тренируется на разных наборах (потоки, тепло, препятствия, мультифазные среды) с нормализацией и случайными промежутками времени.
📊 Результат: он превосходит UNet и Fourier Neural Operator — ударные волны остаются чёткими, вихри устойчивыми, где другие модели размывают картину. Без дополнительного обучения работает даже на сверхзвуковых потоках.
⚠️ Пока ограничения есть: только 2D, фиксированное разрешение и фокус на жидкостях. Но подход указывает путь к модели «**обучи один раз — используй где угодно**» для физики.
📄 https://arxiv.org/abs/2509.13805
👍7❤3
📄 LIMI: Less Is More for Agency
Исследование показывает, что агентным ИИ важнее качество данных, а не их количество.
Ключевые факты:
- 78 тщательно подобранных демо дали 73,5% на AgencyBench — больше, чем модели, обученные на 10k примеров.
- Результаты выше, чем у SOTA: Kimi-K2 (24,1%), DeepSeek (11,9%), Qwen3 (27,5%), GLM-4.5 (45,1%).
- Формулируется принцип Agency Efficiency: автономность ИИ рождается из стратегической выборки данных, а не из их масштаба.
repo: https://github.com/GAIR-NLP/LIMI
model: https://huggingface.co/GAIR/LIMI
data: https://huggingface.co/datasets/GAIR/LIMI
Исследование показывает, что агентным ИИ важнее качество данных, а не их количество.
Ключевые факты:
- 78 тщательно подобранных демо дали 73,5% на AgencyBench — больше, чем модели, обученные на 10k примеров.
- Результаты выше, чем у SOTA: Kimi-K2 (24,1%), DeepSeek (11,9%), Qwen3 (27,5%), GLM-4.5 (45,1%).
- Формулируется принцип Agency Efficiency: автономность ИИ рождается из стратегической выборки данных, а не из их масштаба.
repo: https://github.com/GAIR-NLP/LIMI
model: https://huggingface.co/GAIR/LIMI
data: https://huggingface.co/datasets/GAIR/LIMI
❤5👍2
🎙️ VibeVoice: Инновационная модель TTS для длинных разговоров
VibeVoice — это передовая система синтеза речи, способная генерировать выразительное аудио для длительных разговоров, включая подкасты. Она решает проблемы традиционных TTS-систем, обеспечивая высокую согласованность голосов и естественное взаимодействие между несколькими спикерами.
🚀 Основные моменты:
- Синтезирует речь до 90 минут с 4 различными спикерами.
- Использует токенизаторы непрерывной речи для повышения эффективности.
- Поддерживает высокое качество звука при низкой частоте кадров.
- Применяет диффузионные модели для понимания контекста и потока диалога.
📌 GitHub: https://github.com/microsoft/VibeVoice
#python
VibeVoice — это передовая система синтеза речи, способная генерировать выразительное аудио для длительных разговоров, включая подкасты. Она решает проблемы традиционных TTS-систем, обеспечивая высокую согласованность голосов и естественное взаимодействие между несколькими спикерами.
🚀 Основные моменты:
- Синтезирует речь до 90 минут с 4 различными спикерами.
- Использует токенизаторы непрерывной речи для повышения эффективности.
- Поддерживает высокое качество звука при низкой частоте кадров.
- Применяет диффузионные модели для понимания контекста и потока диалога.
📌 GitHub: https://github.com/microsoft/VibeVoice
#python
❤4👍1🔥1
⚡️AI Studio: создание ИИ-агентов без навыков программирования
Yandex B2B Tech представила обновлённую платформу AI Studio. Теперь компании могут собирать ИИ-агентов без навыков программирования, используя облачные генеративные модели. Это поможет снять часть рутинных задач с бухгалтерии, HR и других сотрудников.
🚀 Основные возможности:
- Голосовые агенты на базе realtime API для контакт-центров с ответами в реальном времени.
- AI Search: поиск по изображениям, таблицам и документам, подключение к интернету.
- Мультиагентные сценарии для комплексных задач.
- Готовые решения: резюмирование встреч, SpeechSense для анализа звонков, Нейроюрист для юридических вопросов.
@machinelearning_ru
#ai #agents #cloud #ml
Yandex B2B Tech представила обновлённую платформу AI Studio. Теперь компании могут собирать ИИ-агентов без навыков программирования, используя облачные генеративные модели. Это поможет снять часть рутинных задач с бухгалтерии, HR и других сотрудников.
🚀 Основные возможности:
- Голосовые агенты на базе realtime API для контакт-центров с ответами в реальном времени.
- AI Search: поиск по изображениям, таблицам и документам, подключение к интернету.
- Мультиагентные сценарии для комплексных задач.
- Готовые решения: резюмирование встреч, SpeechSense для анализа звонков, Нейроюрист для юридических вопросов.
@machinelearning_ru
#ai #agents #cloud #ml
❤3👎2👍1😁1
🚗 Autoware Mini — лёгкая open-source платформа для автономного вождения от Университета Тарту.
🔹 Зачем: учёба и эксперименты. Минимум зависимостей, простая архитектура, быстрый старт.
🔹 Где работает: протестирована даже в городе Тарту (Эстония).
📌 Что внутри:
- Локализация (GPS, лидар, камеры)
- Обнаружение препятствий и прогноз движения
- Определение светофоров (красный = препятствие)
- Построение маршрута и локального движения
- Контроллер для езды по траектории
✨ Новое в версии v0.4:
- Умный планировщик с учётом пешеходов и приоритетов
- Предсказательные модели включены по умолчанию
- Поддержка Carla 0.9.15 и карт Lanelet2
- Упрощённые зависимости и свежая документация
🔗 Код: https://github.com/UT-ADL/autoware_mini
⚡️ MIT-лицензия — можно свободно менять и ис
🔹 Зачем: учёба и эксперименты. Минимум зависимостей, простая архитектура, быстрый старт.
🔹 Где работает: протестирована даже в городе Тарту (Эстония).
📌 Что внутри:
- Локализация (GPS, лидар, камеры)
- Обнаружение препятствий и прогноз движения
- Определение светофоров (красный = препятствие)
- Построение маршрута и локального движения
- Контроллер для езды по траектории
✨ Новое в версии v0.4:
- Умный планировщик с учётом пешеходов и приоритетов
- Предсказательные модели включены по умолчанию
- Поддержка Carla 0.9.15 и карт Lanelet2
- Упрощённые зависимости и свежая документация
🔗 Код: https://github.com/UT-ADL/autoware_mini
⚡️ MIT-лицензия — можно свободно менять и ис
❤2🔥2🤩1
📢 В Kuaishou предложили, как улучшить рекомендации с помощью просмотров, комментариев и LLM
Классический подход в рекомендациях — смотреть на историю взаимодействий и предлагать похожее.
Исследователи Kuaishou Technology пошли дальше и построили новую систему, которая позволила добиться прироста качества по всем метрикам (NDCG, Recall) и в оффлайне, и в A/B-тестах:
— для видео +0.36% к времени просмотра и +0.78% к числу взаимодействий,
— для комментариев +4.12% и +1.35%.
Авторы считают, что подход легко переносим в другие домены.
📖 Полный разбор статьи с RecSys 2025 — у ребят из AI VK Hub
Классический подход в рекомендациях — смотреть на историю взаимодействий и предлагать похожее.
Исследователи Kuaishou Technology пошли дальше и построили новую систему, которая позволила добиться прироста качества по всем метрикам (NDCG, Recall) и в оффлайне, и в A/B-тестах:
— для видео +0.36% к времени просмотра и +0.78% к числу взаимодействий,
— для комментариев +4.12% и +1.35%.
Авторы считают, что подход легко переносим в другие домены.
📖 Полный разбор статьи с RecSys 2025 — у ребят из AI VK Hub
Telegram
AI VK Hub
Ещё одна статья из нашей серии обзоров будет про то, как просмотры, комментарии и языковые модели помогают улучшать рекомендации.
Классический коллаборативный подход к рекомендациям строится на идее: пользователи с похожей историей взаимодействия должны…
Классический коллаборативный подход к рекомендациям строится на идее: пользователи с похожей историей взаимодействия должны…
👍2❤1🔥1👏1🎉1
Введение. Собеседования на позиции, связанные с данными (аналитики, инженеры, ученые данных), всё чаще включают нестандартные и продвинутые вопросы по SQL.
Большие технологические компании (Google, Amazon и др.) предъявляют высокие требования: важна не только правильность запроса, но и умение оптимизировать его и разбираться в реальных бизнес-данных.
В этом гайде мы разберем категории наиболее распространенных сложных SQL-задач с реальных собеседований – от платформ вроде DataLemur, LeetCode, StrataScratch – и подробно поясним решения.
Каждая задача сопровождена анализом: условие, оптимальный подход, используемые SQL-конструкции, возможные ошибки и финальное решение (для PostgreSQL и MySQL, с указанием различий где необходимо).
В конце добавлен отдельный раздел о современных базах данных, включая векторные БД (Pinecone, Weaviate, Milvus и др.), с примерами того, что могут спросить про них на собеседовании и как выглядят SQL-подобные запросы для работы с векторами.
📌 Читать гайд
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Deutsche Bank предупреждает: нынешний рост инвестиций в ИИ неустойчив.
Расходы на дата-центры и оборудование удерживают США от рецессии, но без них рост ВВП близок к нулю. Goldman оценивает капзатраты в $368 млрд к августу 2025 года.
К 2030 году отрасли потребуется $2 трлн годовой выручки, но прогнозируется дефицит в $800 млрд. Продуктивность от ИИ придёт, но слишком медленно, чтобы оправдать такие масштабы инвестиций.
Fortune
KAT-Dev-32B достигает 62,4% на SWE-Bench Verified, входя в топ-5 среди всех open-source моделей.
KAT-Coder идёт ещё дальше - 73,4%, что ставит его в один ряд с ведущими проприетарными решениями.
HF
InclusionAI анонсировала Ring-flash-linear-2.0, открытое решение с комбинированным вниманием (линейным + стандартным). При активации лишь 6,1 млрд параметров она демонстрирует производительность, сопоставимую с плотной моделью на 40 млрд параметров.
Модель основана на Ling-flash-base-2.0 и дообучена на 1 триллионе токенов. Благодаря использованию MoE и гибридной архитектуре она достигает почти линейной временной сложности и устойчивого потребления памяти - что ускоряет и удешевляет инференс.
Ring-flash-linear-2.0 поддерживает контексты длиной до 128 000 токенов, показывая конкурентные результаты в задачах рассуждения, математики, программирования и генерации текста.
Модель распространяется под лицензией MIT.
HF
В Science Magazine опубликовано исследование, которое описывает новую технологию редактирования ДНК. Она позволяет вносить крупные и точные изменения прямо в нужное место генома человека — то, чего не могли обеспечить существующие методы вроде CRISPR.
CRISPR работает грубо: разрезает ДНК и надеется, что клетка правильно её восстановит. Более точные версии редактируют лишь крошечные участки - десятки или сотню «букв» ДНК. Но большинство болезней связано не с одной мутацией, а с распределёнными изменениями по всему геному.
Учёные нашли решение в бактериальных «прыгающих генах» - так называемых мостовых РНК. Они позволяют безопасно и точно вставлять, удалять или переставлять фрагменты длиной до 1 миллиона пар оснований.
В эксперименте новая технология исправила ДНК-повторы, вызывающие атаксию Фридрейха - редкое неврологическое заболевание. Тот же подход можно применить к болезни Хантингтона и другим тяжёлым наследственным патологиям.
В институте Arc уверены: комбинация их ДНК-модели Evo (для проектирования «здоровых» последовательностей) и метода Bridge recombination (для внедрения изменений) может стать основой будущей «Тьюринговой машины для биологии» — системы, способной переписывать геном с высокой точностью.
Paper
Лицо сохраняется точным, а движения выглядят плавно и естественно.
Главное новшество - два специальных адаптера. ID-adapter закрепляет лицо во всех кадрах, чтобы оно не «менялось» при генерации, а Ref-adapter переносит детали исходного фото - волосы, глаза, текстуру кожи.
Lynx построена на Diffusion Transformer и обучена на базе из 50,2 млн пар изображений и видео с разными выражениями лица, светом и фоном. Это помогает модели уверенно сохранять идентичность человека даже в сложных условиях.
Моделька выйдет персонализированное видео высокого качества, где совпадают лицо, мимика и мелкие детали внешности.
byteaigc
С 10 по 14 ноября участников ждут ежедневные лекции, практические задания и финальный проект для портфолио. В программе — основы архитектуры агентов, работа с Tool Use и API, контекст-инженеринг и память, метрики качества и оптимизация, а также создание первой мультиагентной системы по протоколу Agent2Agent. Регистрация открыта, участие доступно всем без отбора.
Rsvp
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5
🐬 DeepSeek-V3.2-Exp
🚀 Новая экспериментальная модель от DeepSeek:
- Сохраняет качество V3.1, но снижает цены API на 50–75%
- Ускоряет длинный контекст за счёт DeepSeek Sparse Attention (DSA)
- Доступна в приложении, на вебе и в API, веса и GPU-ядра выложены в открытый доступ
- V3.1 остаётся онлайн до 25 октября для сравнения
💰 Новые цены:
- Input (cache hit): $0.07 → $0.028 (−60%)
- Input (cache miss): $0.56 → $0.28 (−50%)
- Output: $1.68 → $0.42 (−75%)
📊 Качество в целом не пострадало:
MMLU-Pro 85.0 vs 85.0, AIME-2025 89.3 vs 88.4, с небольшими просадками вроде HMMT-2025 (83.6 vs 86.1).
🔗 Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp)
🔗 Tech Report: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf)
🔗Github: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
#DeepSeek #AI #V32 #SparseAttention #LLM
🚀 Новая экспериментальная модель от DeepSeek:
- Сохраняет качество V3.1, но снижает цены API на 50–75%
- Ускоряет длинный контекст за счёт DeepSeek Sparse Attention (DSA)
- Доступна в приложении, на вебе и в API, веса и GPU-ядра выложены в открытый доступ
- V3.1 остаётся онлайн до 25 октября для сравнения
💰 Новые цены:
- Input (cache hit): $0.07 → $0.028 (−60%)
- Input (cache miss): $0.56 → $0.28 (−50%)
- Output: $1.68 → $0.42 (−75%)
📊 Качество в целом не пострадало:
MMLU-Pro 85.0 vs 85.0, AIME-2025 89.3 vs 88.4, с небольшими просадками вроде HMMT-2025 (83.6 vs 86.1).
🔗 Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp)
🔗 Tech Report: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf)
🔗Github: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
#DeepSeek #AI #V32 #SparseAttention #LLM
❤3👍2
📈 LLM для трейдинга
Вышла специализированная модель - Trading-R1 (4B параметров), обученная на финансовом домене.
Она умеет писать чёткие аналитические тезисы и превращать их в торговые решения.
🔍 Задача
- Квант-модели дают хорошие сигналы, но их сложно читать.
- Общие LLM красиво пишут тексты, но они не конвертируются в дисциплинированные сделки.
💡 Решение
- Жёсткий формат тезиса: отдельные секции для рыночных данных, фундаментала и сентимента.
- Каждое утверждение подкрепляется ссылкой на данные из контекста.
- Прогнозы приводятся к 5 меткам: Strong Buy, Buy, Hold, Sell, Strong Sell, с учётом доходности, нормализованной по волатильности.
🛠️ Обучение
1. На старте - supervised fine-tuning: дистилляция качественного reasoning от сильных black-box моделей.
2. Далее - улучшение через Group Relative Policy Optimization (GRPO).
📊 Результаты
- Датасет: 100K кейсов за 18 месяцев, 14 тикеров.
- На отложенных тестах (NVDA, AAPL, AMZN, META, MSFT, SPY) модель показывает:
- Более высокие Sharpe ratio
- Меньшие просадки
- Авторы позиционируют её как инструмент для ресёрча и поддержки решений, а не для высокочастотной торговли.
🔗 Trading-R1 — пример того, как LLM могут объединять объяснимый анализ и формализм квант-моделей.
https://arxiv.org/abs/2509.11420
Вышла специализированная модель - Trading-R1 (4B параметров), обученная на финансовом домене.
Она умеет писать чёткие аналитические тезисы и превращать их в торговые решения.
🔍 Задача
- Квант-модели дают хорошие сигналы, но их сложно читать.
- Общие LLM красиво пишут тексты, но они не конвертируются в дисциплинированные сделки.
💡 Решение
- Жёсткий формат тезиса: отдельные секции для рыночных данных, фундаментала и сентимента.
- Каждое утверждение подкрепляется ссылкой на данные из контекста.
- Прогнозы приводятся к 5 меткам: Strong Buy, Buy, Hold, Sell, Strong Sell, с учётом доходности, нормализованной по волатильности.
🛠️ Обучение
1. На старте - supervised fine-tuning: дистилляция качественного reasoning от сильных black-box моделей.
2. Далее - улучшение через Group Relative Policy Optimization (GRPO).
📊 Результаты
- Датасет: 100K кейсов за 18 месяцев, 14 тикеров.
- На отложенных тестах (NVDA, AAPL, AMZN, META, MSFT, SPY) модель показывает:
- Более высокие Sharpe ratio
- Меньшие просадки
- Авторы позиционируют её как инструмент для ресёрча и поддержки решений, а не для высокочастотной торговли.
🔗 Trading-R1 — пример того, как LLM могут объединять объяснимый анализ и формализм квант-моделей.
https://arxiv.org/abs/2509.11420
🤔3❤1