📖 Эта статья представляет SC-MCTS*: новый алгоритм Монте-Карло Tree Search (MCTS) для больших языковых моделей (LLM), который значительно улучшает точность и скорость рассуждений!
🌟 Авторы отмечают, что предыдущие работы по применению MCTS в LLM часто упускали из виду его главный недостаток — медленную скорость по сравнению с Chain of Thought (CoT). Кроме того, ранее MCTS использовался как инструмент для различных задач LLM без глубокого количественного анализа или исследований его компонентов с точки зрения интерпретируемости рассуждений. Наконец, модель вознаграждения, являющаяся ключевым компонентом MCTS, редко подвергалась глубокому изучению или улучшению.
💡 В ответ на эти вызовы авторы провели обширные исследования и количественный анализ компонентов MCTS, выявив их влияние на производительность рассуждений LLM. На основе этих исследований они разработали интерпретируемую модель вознаграждения, основанную на принципе контрастивного декодирования, и достигли среднего улучшения скорости на 51,9% на узел с использованием спекулятивного декодирования. Дополнительно были улучшены стратегии выбора узлов UCT и обратного распространения, что привело к значительному повышению производительности. Используя SC-MCTS* с моделью Llama-3.1-70B, они превзошли o1-mini в среднем на 17,4% на наборе данных Blocksworld для многошаговых рассуждений.
📖 Эта статья представляет SC-MCTS*: новый алгоритм Монте-Карло Tree Search (MCTS) для больших языковых моделей (LLM), который значительно улучшает точность и скорость рассуждений!
🌟 Авторы отмечают, что предыдущие работы по применению MCTS в LLM часто упускали из виду его главный недостаток — медленную скорость по сравнению с Chain of Thought (CoT). Кроме того, ранее MCTS использовался как инструмент для различных задач LLM без глубокого количественного анализа или исследований его компонентов с точки зрения интерпретируемости рассуждений. Наконец, модель вознаграждения, являющаяся ключевым компонентом MCTS, редко подвергалась глубокому изучению или улучшению.
💡 В ответ на эти вызовы авторы провели обширные исследования и количественный анализ компонентов MCTS, выявив их влияние на производительность рассуждений LLM. На основе этих исследований они разработали интерпретируемую модель вознаграждения, основанную на принципе контрастивного декодирования, и достигли среднего улучшения скорости на 51,9% на узел с использованием спекулятивного декодирования. Дополнительно были улучшены стратегии выбора узлов UCT и обратного распространения, что привело к значительному повышению производительности. Используя SC-MCTS* с моделью Llama-3.1-70B, они превзошли o1-mini в среднем на 17,4% на наборе данных Blocksworld для многошаговых рассуждений.
As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” Select “New Channel” Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added.
from us