📖 Эта статья представляет SC-MCTS*: новый алгоритм Монте-Карло Tree Search (MCTS) для больших языковых моделей (LLM), который значительно улучшает точность и скорость рассуждений!
🌟 Авторы отмечают, что предыдущие работы по применению MCTS в LLM часто упускали из виду его главный недостаток — медленную скорость по сравнению с Chain of Thought (CoT). Кроме того, ранее MCTS использовался как инструмент для различных задач LLM без глубокого количественного анализа или исследований его компонентов с точки зрения интерпретируемости рассуждений. Наконец, модель вознаграждения, являющаяся ключевым компонентом MCTS, редко подвергалась глубокому изучению или улучшению.
💡 В ответ на эти вызовы авторы провели обширные исследования и количественный анализ компонентов MCTS, выявив их влияние на производительность рассуждений LLM. На основе этих исследований они разработали интерпретируемую модель вознаграждения, основанную на принципе контрастивного декодирования, и достигли среднего улучшения скорости на 51,9% на узел с использованием спекулятивного декодирования. Дополнительно были улучшены стратегии выбора узлов UCT и обратного распространения, что привело к значительному повышению производительности. Используя SC-MCTS* с моделью Llama-3.1-70B, они превзошли o1-mini в среднем на 17,4% на наборе данных Blocksworld для многошаговых рассуждений.
📖 Эта статья представляет SC-MCTS*: новый алгоритм Монте-Карло Tree Search (MCTS) для больших языковых моделей (LLM), который значительно улучшает точность и скорость рассуждений!
🌟 Авторы отмечают, что предыдущие работы по применению MCTS в LLM часто упускали из виду его главный недостаток — медленную скорость по сравнению с Chain of Thought (CoT). Кроме того, ранее MCTS использовался как инструмент для различных задач LLM без глубокого количественного анализа или исследований его компонентов с точки зрения интерпретируемости рассуждений. Наконец, модель вознаграждения, являющаяся ключевым компонентом MCTS, редко подвергалась глубокому изучению или улучшению.
💡 В ответ на эти вызовы авторы провели обширные исследования и количественный анализ компонентов MCTS, выявив их влияние на производительность рассуждений LLM. На основе этих исследований они разработали интерпретируемую модель вознаграждения, основанную на принципе контрастивного декодирования, и достигли среднего улучшения скорости на 51,9% на узел с использованием спекулятивного декодирования. Дополнительно были улучшены стратегии выбора узлов UCT и обратного распространения, что привело к значительному повышению производительности. Используя SC-MCTS* с моделью Llama-3.1-70B, они превзошли o1-mini в среднем на 17,4% на наборе данных Blocksworld для многошаговых рассуждений.
With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." Select “New Channel” Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu.
from us