Warning: file_put_contents(aCache/aDaily/post/data_analysis_ml/-3713-3714-3715-3716-3713-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Анализ данных (Data analysis)@data_analysis_ml P.3715
DATA_ANALYSIS_ML Telegram 3715
✔️ Kimi-Researcher: End-to-End RL для агентных возможностей

Kimi-Researcher — автономный агент от Moonshot AI, способный решать сложные многоэтапные задачи через поиск и рассуждения. В среднем он выполняет 23 шага рассуждений и анализирует более 200 URL за одну задачу. Построен на внутренней версии модели Kimi k-series и обучен полностью через end-to-end reinforcement learning, достигнув Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam.

Ключевые достижения:
• Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam (тест 17 июня 2025)
• 69 % Pass@1 на xbench-DeepSearch (среднее из 4 прогонов)
• Сильные результаты на FRAMES, Seal-0 и SimpleQA

Архитектура и инструменты:
• Параллельный internal search tool для реального времени
• Текстовый браузер для интерактивных веб-задач
• Кодовый тул для автоматического выполнения и тестирования кода

Преимущества end-to-end agentic RL:
• Обучение единой модели планированию, восприятию и использованию инструментов без ручных шаблонов
• Гибкая адаптация к изменяющимся инструментам и динамическим условиям
• Поддержка длинных траекторий (> 50 итераций) благодаря контекст-менеджеру

Подход к обучению:
1. Синтетические задачи с обязательным вызовом инструментов для надёжного усвоения работы с ними
2. Алгоритм REINFORCE с контролем негативных примеров и γ-декэем для стабильности
3. Контекст-менеджмент: сохранение ключевых документов и отбрасывание «мусора»
4. Асинхронные rollout’ы и Turn-level Partial Rollout для ускорения обучения

Инфраструктура Agent RL:
• Полностью асинхронные rollout’ы с Gym-like интерфейсами
• Turn-level Partial Rollout для задач долгой продолжительности
• Надёжный sandbox на Kubernetes с Model Context Protocol (MCP) для связи агента и инструментов

Emerging agentic capacities:
• Итеративное разрешение противоречий через гипотезы и самопроверку
• Ригорозная перекрёстная верификация фактов перед выдачей ответа

Сценарии применения:
• Академические исследования и юридические обзоры
• Извлечение редкой информации и комплаенс
• Клинические обзоры и финансовый анализ

https://moonshotai.github.io/Kimi-Researcher/

#ai #ml #Agent #rl #Kimi

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥3👍2



tgoop.com/data_analysis_ml/3715
Create:
Last Update:

✔️ Kimi-Researcher: End-to-End RL для агентных возможностей

Kimi-Researcher — автономный агент от Moonshot AI, способный решать сложные многоэтапные задачи через поиск и рассуждения. В среднем он выполняет 23 шага рассуждений и анализирует более 200 URL за одну задачу. Построен на внутренней версии модели Kimi k-series и обучен полностью через end-to-end reinforcement learning, достигнув Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam.

Ключевые достижения:
• Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam (тест 17 июня 2025)
• 69 % Pass@1 на xbench-DeepSearch (среднее из 4 прогонов)
• Сильные результаты на FRAMES, Seal-0 и SimpleQA

Архитектура и инструменты:
• Параллельный internal search tool для реального времени
• Текстовый браузер для интерактивных веб-задач
• Кодовый тул для автоматического выполнения и тестирования кода

Преимущества end-to-end agentic RL:
• Обучение единой модели планированию, восприятию и использованию инструментов без ручных шаблонов
• Гибкая адаптация к изменяющимся инструментам и динамическим условиям
• Поддержка длинных траекторий (> 50 итераций) благодаря контекст-менеджеру

Подход к обучению:
1. Синтетические задачи с обязательным вызовом инструментов для надёжного усвоения работы с ними
2. Алгоритм REINFORCE с контролем негативных примеров и γ-декэем для стабильности
3. Контекст-менеджмент: сохранение ключевых документов и отбрасывание «мусора»
4. Асинхронные rollout’ы и Turn-level Partial Rollout для ускорения обучения

Инфраструктура Agent RL:
• Полностью асинхронные rollout’ы с Gym-like интерфейсами
• Turn-level Partial Rollout для задач долгой продолжительности
• Надёжный sandbox на Kubernetes с Model Context Protocol (MCP) для связи агента и инструментов

Emerging agentic capacities:
• Итеративное разрешение противоречий через гипотезы и самопроверку
• Ригорозная перекрёстная верификация фактов перед выдачей ответа

Сценарии применения:
• Академические исследования и юридические обзоры
• Извлечение редкой информации и комплаенс
• Клинические обзоры и финансовый анализ

https://moonshotai.github.io/Kimi-Researcher/

#ai #ml #Agent #rl #Kimi

@data_analysis_ml

BY Анализ данных (Data analysis)







Share with your friend now:
tgoop.com/data_analysis_ml/3715

View MORE
Open in Telegram


Telegram News

Date: |

The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers. When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. The Standard Channel To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc.
from us


Telegram Анализ данных (Data analysis)
FROM American