MACHINELEARNING_RU Telegram 2193
Alibaba только что выпустила Marco-o1

Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.

Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.

MCTS позволяет исследовать множество путей рассуждения, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.

Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.

HF: https://huggingface.co/AIDC-AI/Marco-o1
Github: https://github.com/AIDC-AI/Marco-o1
Paper: https://arxiv.org/abs/2411.14405
Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data

@machinelearning_ru
5👍2🤬2🔥1



tgoop.com/machinelearning_ru/2193
Create:
Last Update:

Alibaba только что выпустила Marco-o1

Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.

Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.

MCTS позволяет исследовать множество путей рассуждения, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.

Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.

HF: https://huggingface.co/AIDC-AI/Marco-o1
Github: https://github.com/AIDC-AI/Marco-o1
Paper: https://arxiv.org/abs/2411.14405
Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data

@machinelearning_ru

BY Машинное обучение RU








Share with your friend now:
tgoop.com/machinelearning_ru/2193

View MORE
Open in Telegram


Telegram News

Date: |

Add up to 50 administrators Informative Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." Channel login must contain 5-32 characters
from us


Telegram Машинное обучение RU
FROM American