⚡ Google представила Gemini 2.5 Flash Lite — самую быструю и дешёвую модель из всей линейки
💸 Минимальные затраты, максимум скорости:
• Обработать все книги "Гарри Поттера" — всего за $0.22
• Проанализировать 3‑часовое видео — меньше $0.35
🧠 Активация режима *thinking mode* даёт дополнительную точность и контекстное понимание.
📦 Модель уже доступна для тестов и внедрения — отличное решение для быстрой генерации, извлечения информации и масштабных задач без лишних затрат.
Модель Gemini 2.5 Flash Lite уже доступна в Google AI Studio
Как попробовать:
1️⃣ Перейди на: https://aistudio.google.com/prompts/new_chat
2️⃣ В списке моделей выбери "Gemini 2.5 Flash Lite Preview 06-17"
3️⃣ Введи текст, аудио или видео-промпт — и запускай!
🧠 В боковой панели можно сразу включить "Thinking mode" — он улучшает логику и глубину ответов.
Моментальный доступ к одной из самых быстрых и дешёвых моделей Google.
#GeminiFlashLite #GoogleAI #AIStudio #LLM #PromptEngineering
💸 Минимальные затраты, максимум скорости:
• Обработать все книги "Гарри Поттера" — всего за $0.22
• Проанализировать 3‑часовое видео — меньше $0.35
🧠 Активация режима *thinking mode* даёт дополнительную точность и контекстное понимание.
📦 Модель уже доступна для тестов и внедрения — отличное решение для быстрой генерации, извлечения информации и масштабных задач без лишних затрат.
Модель Gemini 2.5 Flash Lite уже доступна в Google AI Studio
Как попробовать:
1️⃣ Перейди на: https://aistudio.google.com/prompts/new_chat
2️⃣ В списке моделей выбери "Gemini 2.5 Flash Lite Preview 06-17"
3️⃣ Введи текст, аудио или видео-промпт — и запускай!
🧠 В боковой панели можно сразу включить "Thinking mode" — он улучшает логику и глубину ответов.
Моментальный доступ к одной из самых быстрых и дешёвых моделей Google.
#GeminiFlashLite #GoogleAI #AIStudio #LLM #PromptEngineering
Media is too big
VIEW IN TELEGRAM
🤖 GMT (General Motion Tracking): единая политика управления движением
🔍 Что такое GMT
• Одна универсальная модель для всех динамичных движений для роботов (ходьба, бег, прыжки, танцы)
• Прямой перенос из симуляции в реальный мир (sim2real) без дополнительной донастройки
🎯 Особеености GMT
• Одна модель вместо множества узкоспециализированных
• Мгновенная реакция на команды роботов
• Проверено на реальных роботах — без тонкой подгонки параметров
⚙️ Ключевые возможности
• Partial Observability: устойчивость при ограниченных данных с сенсоров
• Hardware Limitations: учёт физических ограничений актуаторов и механики
• Unbalanced Data Distribution: надёжная работа на разнородных данных
• Model Expressiveness: способность воспроизводить сложные паттерны движений
🚀 Преимущества для практики
• Сокращение затрат на разработку и поддержку — одна модель вместо десятков
• Быстрый переход от исследований к промышленным решениям
• Готовность к любым задачам: от эффектных демонстраций до точных манипуляций
🌐 Демо и подробности
Узнайте больше и посмотрите примеры на сайте:
https://gmt-humanoid.github.io
🔍 Что такое GMT
• Одна универсальная модель для всех динамичных движений для роботов (ходьба, бег, прыжки, танцы)
• Прямой перенос из симуляции в реальный мир (sim2real) без дополнительной донастройки
🎯 Особеености GMT
• Одна модель вместо множества узкоспециализированных
• Мгновенная реакция на команды роботов
• Проверено на реальных роботах — без тонкой подгонки параметров
⚙️ Ключевые возможности
• Partial Observability: устойчивость при ограниченных данных с сенсоров
• Hardware Limitations: учёт физических ограничений актуаторов и механики
• Unbalanced Data Distribution: надёжная работа на разнородных данных
• Model Expressiveness: способность воспроизводить сложные паттерны движений
🚀 Преимущества для практики
• Сокращение затрат на разработку и поддержку — одна модель вместо десятков
• Быстрый переход от исследований к промышленным решениям
• Готовность к любым задачам: от эффектных демонстраций до точных манипуляций
🌐 Демо и подробности
Узнайте больше и посмотрите примеры на сайте:
https://gmt-humanoid.github.io
Forwarded from Machinelearning
Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.
Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач). В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.
Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность.
Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:
В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».
При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.
@ai_machinelearning_big_data
#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Это минималистичный, но быстрый движок для офлайн-инференса LLM. Отлично подойдёт для локальных экспериментов и кастомных решений.
📌 Ключевые фичи:
🚀 Быстрый офлайн-инференс — почти как у vLLM
📖 Простой и читаемый код — всего ~1200 строк на Python
⚡ Оптимизации: prefix caching, Torch compilation, CUDA Graph и др.
📦 Установка:
pip install git+https://github.com/GeeeekExplorer/nano-vllm.git
Примеры использования — в example.py.
API максимально похож на vLLM, за исключением метода LLM.generate.
📊 Бенчмарк (на RTX 4070 + модель Qwen3-0.6B):
• Запросов: 256
• Вход: от 100 до 1024 токенов
• Выход: от 100 до 1024 токенов
Результаты:
| Движок | Время (с) | Скорость (токенов/с) |
|--------------|-----------|----------------------|
| vLLM | 98.95 | 1353.86 |
| **Nano-vLLM**| 101.90 | **1314.65** |
💡 Nano‑vLLM показывает почти ту же производительность, что и оригинал, но с компактным и понятным кодом. Идеален для изучения и локальных LLM-проектов.
📌 Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Сменить профессию, переехать в Питер или просто зарабатывать больше в топовой компании… У всех свои причины для роста, но один уверенный старт - это магистратура в Университете ИТМО.
В магистратуре ИТМО вы можете обучаться по направлениям:
✔️Программирование
✔️Искусственный интеллект
✔️Биология
✔️Информационная безопасность
✔️Инженерные науки
✔️Гуманитарные исследования
✔️Экология
✔️Биотехнологии
✔️Химия
✔️Робототехника
✔️Энергетика
✔️Физика
✔️Экономика и инновации
На каждое из направлений можно поступить на бюджет по конкурсу, не сдавая экзамены📖
КОНКУРС ПОРТФОЛИО - это то, с чем бюджет в магистратуре ИТМО может стать реальностью, а вступительные экзамены пусть достанутся кому-то другому! Подробные условия участия по ссылке📨
А узнать подробнее о самой магистратуре в ИТМО можно узнать по ссылке или в телеграм канале📲
Реклама. Университет ИТМО ИНН:7813045547
В магистратуре ИТМО вы можете обучаться по направлениям:
✔️Программирование
✔️Искусственный интеллект
✔️Биология
✔️Информационная безопасность
✔️Инженерные науки
✔️Гуманитарные исследования
✔️Экология
✔️Биотехнологии
✔️Химия
✔️Робототехника
✔️Энергетика
✔️Физика
✔️Экономика и инновации
На каждое из направлений можно поступить на бюджет по конкурсу, не сдавая экзамены📖
КОНКУРС ПОРТФОЛИО - это то, с чем бюджет в магистратуре ИТМО может стать реальностью, а вступительные экзамены пусть достанутся кому-то другому! Подробные условия участия по ссылке📨
А узнать подробнее о самой магистратуре в ИТМО можно узнать по ссылке или в телеграм канале📲
Реклама. Университет ИТМО ИНН:7813045547
Разработчики запустили Nexus of Mind — платформу, где сразу *пять* топовых ИИ дискутируют над вашим вопросом, чтобы выдать на выходе максимально точный, согласованный и аргументированный ответ.
🔥 Что внутри:
• В одном чате — ChatGPT, Gemini, DeepSeek, LLaMA и Cohere
• Моде
https://nexusofmind.world/
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🚀 Парадигма меняется: Polaris выводит локальные модели на новый уровень
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM
Accuracy — это ещё не значит, что модель работает.
Красивые графики и высокие метрики — это только начало. После релиза начинается самое интересное: данные дрейфуют, пользователи ведут себя не так, как ожидалось, а бизнес требует объяснений.
На вебинаре от karpov courses — «ML на практике» Ирина Дворянинова (руководит ML-сервисами) и Фёдор Пахуров (ML-специалист в проде) из ecom tech расскажут, как устроен процесс внедрения моделей, какие подводные камни ждут новичков и почему A/B-тесты — это не просто «запустил и забыл».
Узнайте, как выглядит реальная работа ML-инженера — и что нужно уметь, чтобы в ней остаться на бесплатном онлайн-вебинаре 26 июня 19:00: https://clc.to/erid_2W5zFG7wuRJ
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFG7wuRJ
Красивые графики и высокие метрики — это только начало. После релиза начинается самое интересное: данные дрейфуют, пользователи ведут себя не так, как ожидалось, а бизнес требует объяснений.
На вебинаре от karpov courses — «ML на практике» Ирина Дворянинова (руководит ML-сервисами) и Фёдор Пахуров (ML-специалист в проде) из ecom tech расскажут, как устроен процесс внедрения моделей, какие подводные камни ждут новичков и почему A/B-тесты — это не просто «запустил и забыл».
Узнайте, как выглядит реальная работа ML-инженера — и что нужно уметь, чтобы в ней остаться на бесплатном онлайн-вебинаре 26 июня 19:00: https://clc.to/erid_2W5zFG7wuRJ
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFG7wuRJ
📊 PyTracking — универсальный фреймворк для визуального трекинга на Python. Этот проект объединяет под одной крышей передовые алгоритмы отслеживания объектов в видео, от классических подходов до трансформерных архитектур.
Инструмент имеет поддержку сразу нескольких трекеров — TaMOs для одновременного отслеживания множества объектов, RTS с сегментацией вместо bounding box’ов и ToMP с предсказанием на основе Transformer. Хотя код написан на PyTorch и требует GPU для тренировки моделей, разработчики постарались сделать инфраструктуру максимально модульной. Здесь есть всё: от готовых датасетов до инструментов для оценки точности.
🤖 GitHub
@machinelearning_ru
Инструмент имеет поддержку сразу нескольких трекеров — TaMOs для одновременного отслеживания множества объектов, RTS с сегментацией вместо bounding box’ов и ToMP с предсказанием на основе Transformer. Хотя код написан на PyTorch и требует GPU для тренировки моделей, разработчики постарались сделать инфраструктуру максимально модульной. Здесь есть всё: от готовых датасетов до инструментов для оценки точности.
🤖 GitHub
@machinelearning_ru
😅 Google случайно опубликовали блог о Gemini CLI, но пост уже удалён — теперь там 404. Что удалось узнать до удаления:
🔓 Open-source CLI для Gemini 2.5 Pro
🧠 Поддержка контекста в 1 миллион токенов
💸 Бесплатный тариф: до 60 запросов в минуту и 1000 в день
🔍 Привязка к Google Search для актуальных ответов
🧩 Поддержка плагинов и скриптов
🧑💻 Интеграция с VS Code (Gemini Code Assist)
👀 Похоже, Google готовит серьёзный ответ OpenAI — с фокусом на разработчиков и расширяемость прямо из терминала.
Вот ссылка на блог (сейчас выдаёт 404):
https://blog.google/technology/developers/introducing-gemini-cli/
🔓 Open-source CLI для Gemini 2.5 Pro
🧠 Поддержка контекста в 1 миллион токенов
💸 Бесплатный тариф: до 60 запросов в минуту и 1000 в день
🔍 Привязка к Google Search для актуальных ответов
🧩 Поддержка плагинов и скриптов
🧑💻 Интеграция с VS Code (Gemini Code Assist)
👀 Похоже, Google готовит серьёзный ответ OpenAI — с фокусом на разработчиков и расширяемость прямо из терминала.
Вот ссылка на блог (сейчас выдаёт 404):
https://blog.google/technology/developers/introducing-gemini-cli/
Поступи в магистратуру с грантом до 1,2 млн рублей
Современная магистратура – это не пары для галочки, а возможность продвинуть карьеру и стать сильным специалистом.
Центральный университет ведет набор на пять программ магистратуры по популярным ИТ-направлениям. Партнеры – ведущие компании на рынке РФ: ВТБ, Сбер, Т-Банк, Яндекс, Avito, Ozon, Х5 Tech и другие. 62% магистрантов ЦУ находят новую работу с ростом зарплаты в 1,6 раза уже на первом курсе. Средняя зарплата – 195 тысяч рублей.
Обучение можно совмещать с работой, а поступить – уже с третьего курса.
Стань частью новой волны специалистов и получи грант на обучение до 1,2 млн рублей.
И подавай заявку на поступление уже сейчас.
Реклама. АНО ВО "Центральный университет", ИНН 7743418023, erid:2RanykvyhXf
Современная магистратура – это не пары для галочки, а возможность продвинуть карьеру и стать сильным специалистом.
Центральный университет ведет набор на пять программ магистратуры по популярным ИТ-направлениям. Партнеры – ведущие компании на рынке РФ: ВТБ, Сбер, Т-Банк, Яндекс, Avito, Ozon, Х5 Tech и другие. 62% магистрантов ЦУ находят новую работу с ростом зарплаты в 1,6 раза уже на первом курсе. Средняя зарплата – 195 тысяч рублей.
Обучение можно совмещать с работой, а поступить – уже с третьего курса.
Стань частью новой волны специалистов и получи грант на обучение до 1,2 млн рублей.
И подавай заявку на поступление уже сейчас.
Реклама. АНО ВО "Центральный университет", ИНН 7743418023, erid:2RanykvyhXf
🚀 RoboArena: платформа для реального оценивания robot policies
RoboArena — первая в своём роде платформа для масштабируемого и воспроизводимого оценивания роботов, основанных на политике управления (robot policies). Это прямой аналог Chatbot Arena, но для роботов, позволяющий исследователям сравнивать и ранжировать решения в реальных условиях.
Задача и мотивация:
• Реальное тестирование роботов дорого и зачастую не воспроизводимо.
• Традиционные симуляторы часто не отражают реальные физические условия.
RoboArena устраняет эти ограничения, предоставляя инфраструктуру для распределённого и стандартизированного оценивания политик на реальных роботах.
Ключевые компоненты платформы:
• Evaluation client — Python-скрипт (Python 3.7+), позволяющий запустить серию оценочных прогонов на вашей аппаратуре. Настраивается через YAML-конфиг для указания камер, названия института и параметров логирования.
• Централизованный logging server — собирает метрики успеха, телеметрию и оценки, обеспечивая единое хранилище данных и построение рейтингов.
• Веб-интерфейс — статический сайт, доступный по адресу robo-arena.github.io, где публикуются данные о политиках, динамически обновляемые графики и сравнительный рейтинг.
Рабочий процесс:
1. Настроить YAML-файл (например, my_institution.yaml) с параметрами камер и логирования.
2. Запустить команду:
```bash
python evaluate.py --config my_institution.yaml
3. Открыть веб-интерфейс в браузере по адресу robo-arena.github.io и просмотреть результаты.
Планы развития:
• Интеграция с world-model платформами (SIMPLER, WPE) для сравнения симуляционного и реального оценивания.
• Полный открытый исходный код client, server и web UI к концу 2025.
• Добавление поддержки новых сенсоров и разных типов роботов.
github.com/pranavatreya/real_eval
RoboArena — первая в своём роде платформа для масштабируемого и воспроизводимого оценивания роботов, основанных на политике управления (robot policies). Это прямой аналог Chatbot Arena, но для роботов, позволяющий исследователям сравнивать и ранжировать решения в реальных условиях.
Задача и мотивация:
• Реальное тестирование роботов дорого и зачастую не воспроизводимо.
• Традиционные симуляторы часто не отражают реальные физические условия.
RoboArena устраняет эти ограничения, предоставляя инфраструктуру для распределённого и стандартизированного оценивания политик на реальных роботах.
Ключевые компоненты платформы:
• Evaluation client — Python-скрипт (Python 3.7+), позволяющий запустить серию оценочных прогонов на вашей аппаратуре. Настраивается через YAML-конфиг для указания камер, названия института и параметров логирования.
• Централизованный logging server — собирает метрики успеха, телеметрию и оценки, обеспечивая единое хранилище данных и построение рейтингов.
• Веб-интерфейс — статический сайт, доступный по адресу robo-arena.github.io, где публикуются данные о политиках, динамически обновляемые графики и сравнительный рейтинг.
Рабочий процесс:
1. Настроить YAML-файл (например, my_institution.yaml) с параметрами камер и логирования.
2. Запустить команду:
```bash
python evaluate.py --config my_institution.yaml
3. Открыть веб-интерфейс в браузере по адресу robo-arena.github.io и просмотреть результаты.
Планы развития:
• Интеграция с world-model платформами (SIMPLER, WPE) для сравнения симуляционного и реального оценивания.
• Полный открытый исходный код client, server и web UI к концу 2025.
• Добавление поддержки новых сенсоров и разных типов роботов.
github.com/pranavatreya/real_eval