NN_FOR_SCIENCE Telegram 2455
Thinkless: LLM учится, когда нужно думать

Современные LLM, способные к долгим логическим рассуждениям продемонстрировали замечательную производительность при решении задач, требующих сложных логических выводов

Однако применение сложных рассуждений для абсолютно всех запросов часто приводит к существенной вычислительной неэффективности, особенно когда многие проблемы допускают
простые решения.

Исследователи из университета Сингапура поставили вопрос ребром: могут ли LLM научиться, когда думать?

Чтобы ответить на этот вопрос, предложен Thinkless, обучаемый фрэмворк, который позволяет LLM адаптивно выбирать между краткой и длинной формой рассуждений, основываясь как на сложности задачи, так и на возможностях модели.

Thinkless обучается при помощи Reinforcement Learning, где использует два контрольных токена, <short> для кратких ответов и <think> для подробного рассуждения.

В основе предложенного метода лежит алгоритм Decoupled Group Relative Policy Optimization (DeGRPO), который разделяет выбор режима рассуждения и точности ответа, избегая коллапса.

Эмпирически, на нескольких бенчмарках, таких как Minerva Algebra, MATH-500 и GSM8K, Thinkless способен сократить использование длинных логических рассуждений на 50% - 90% без потери качества ответов.


"Думай быстро и медленно"в действии!

🧠 Статья

🖥GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/nn_for_science/2455
Create:
Last Update:

Thinkless: LLM учится, когда нужно думать

Современные LLM, способные к долгим логическим рассуждениям продемонстрировали замечательную производительность при решении задач, требующих сложных логических выводов

Однако применение сложных рассуждений для абсолютно всех запросов часто приводит к существенной вычислительной неэффективности, особенно когда многие проблемы допускают
простые решения.

Исследователи из университета Сингапура поставили вопрос ребром: могут ли LLM научиться, когда думать?

Чтобы ответить на этот вопрос, предложен Thinkless, обучаемый фрэмворк, который позволяет LLM адаптивно выбирать между краткой и длинной формой рассуждений, основываясь как на сложности задачи, так и на возможностях модели.

Thinkless обучается при помощи Reinforcement Learning, где использует два контрольных токена, <short> для кратких ответов и <think> для подробного рассуждения.

В основе предложенного метода лежит алгоритм Decoupled Group Relative Policy Optimization (DeGRPO), который разделяет выбор режима рассуждения и точности ответа, избегая коллапса.

Эмпирически, на нескольких бенчмарках, таких как Minerva Algebra, MATH-500 и GSM8K, Thinkless способен сократить использование длинных логических рассуждений на 50% - 90% без потери качества ответов.


"Думай быстро и медленно"в действии!

🧠 Статья

🖥GitHub

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2455

View MORE
Open in Telegram


Telegram News

Date: |

Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019.
from us


Telegram AI для Всех
FROM American