MACHINELEARNING_RU Telegram 2192
Alibaba только что выпустила Marco-o1

Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.

Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.

MCTS позволяет исследовать множество путей рассуждения, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.

Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.

HF: https://huggingface.co/AIDC-AI/Marco-o1
Github: https://github.com/AIDC-AI/Marco-o1
Paper: https://arxiv.org/abs/2411.14405
Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data

@machinelearning_ru
5👍2🤬2🔥1



tgoop.com/machinelearning_ru/2192
Create:
Last Update:

Alibaba только что выпустила Marco-o1

Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.

Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.

MCTS позволяет исследовать множество путей рассуждения, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.

Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.

HF: https://huggingface.co/AIDC-AI/Marco-o1
Github: https://github.com/AIDC-AI/Marco-o1
Paper: https://arxiv.org/abs/2411.14405
Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data

@machinelearning_ru

BY Машинное обучение RU








Share with your friend now:
tgoop.com/machinelearning_ru/2192

View MORE
Open in Telegram


Telegram News

Date: |

Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. ZDNET RECOMMENDS Activate up to 20 bots Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said.
from us


Telegram Машинное обучение RU
FROM American