MATHMODELS Telegram 1293
"Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens" от исследователей из Arizona State University:
🧠 Основная идея
Авторы ставят под сомнение, действительно ли Chain-of-Thought (CoT) — пошаговое рассуждение, вызываемое у больших языковых моделей (LLMs) — является проявлением настоящего мышления. Они утверждают, что CoT — это не логическое рассуждение, а структурированное воспроизведение шаблонов, выученных на тренировочных данных.
🔍 Ключевые тезисы
1. CoT работает только в пределах обучающего распределения
Модели хорошо справляются с задачами, похожими на те, что были в обучении.
При малейшем отклонении (новая задача, формат, длина) — CoT начинает давать сбои.
2. CoT — это не мышление, а паттерн-матчинг
Модель не рассуждает, а воспроизводит шаблоны, которые она видела.
Пример: модель может правильно описать правило високосного года, но сделать логически противоречивый вывод.
3. DATAALCHEMY — экспериментальная среда
Авторы создали контролируемую среду, где обучали LLM с нуля.
Они проверяли CoT по трём осям:
Задача: насколько модель справляется с новыми типами задач.
Длина рассуждения: как меняется качество при увеличении/уменьшении количества шагов.
Формат запроса: насколько чувствительна модель к изменению формулировки.
4. CoT ломается при малейших изменениях
Даже небольшие изменения в формате запроса (вставка, удаление слов) резко снижают точность.
Модель может давать правильные шаги рассуждения, но неправильный ответ — и наоборот.
📉 Выводы и последствия
CoT — это иллюзия мышления, не отражающая настоящую способность к логическому выводу.
Файнтюнинг может временно «залатать» модель, но не решает проблему обобщения.
Практикам не стоит слепо доверять CoT в критических областях (медицина, финансы).
Исследователям стоит искать новые архитектуры, способные к настоящему выводу, а не к имитации.
2👍1



tgoop.com/MathModels/1293
Create:
Last Update:

"Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens" от исследователей из Arizona State University:
🧠 Основная идея
Авторы ставят под сомнение, действительно ли Chain-of-Thought (CoT) — пошаговое рассуждение, вызываемое у больших языковых моделей (LLMs) — является проявлением настоящего мышления. Они утверждают, что CoT — это не логическое рассуждение, а структурированное воспроизведение шаблонов, выученных на тренировочных данных.
🔍 Ключевые тезисы
1. CoT работает только в пределах обучающего распределения
Модели хорошо справляются с задачами, похожими на те, что были в обучении.
При малейшем отклонении (новая задача, формат, длина) — CoT начинает давать сбои.
2. CoT — это не мышление, а паттерн-матчинг
Модель не рассуждает, а воспроизводит шаблоны, которые она видела.
Пример: модель может правильно описать правило високосного года, но сделать логически противоречивый вывод.
3. DATAALCHEMY — экспериментальная среда
Авторы создали контролируемую среду, где обучали LLM с нуля.
Они проверяли CoT по трём осям:
Задача: насколько модель справляется с новыми типами задач.
Длина рассуждения: как меняется качество при увеличении/уменьшении количества шагов.
Формат запроса: насколько чувствительна модель к изменению формулировки.
4. CoT ломается при малейших изменениях
Даже небольшие изменения в формате запроса (вставка, удаление слов) резко снижают точность.
Модель может давать правильные шаги рассуждения, но неправильный ответ — и наоборот.
📉 Выводы и последствия
CoT — это иллюзия мышления, не отражающая настоящую способность к логическому выводу.
Файнтюнинг может временно «залатать» модель, но не решает проблему обобщения.
Практикам не стоит слепо доверять CoT в критических областях (медицина, финансы).
Исследователям стоит искать новые архитектуры, способные к настоящему выводу, а не к имитации.

BY Mathematical Models of the Real World


Share with your friend now:
tgoop.com/MathModels/1293

View MORE
Open in Telegram


Telegram News

Date: |

The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. Write your hashtags in the language of your target audience. Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021.
from us


Telegram Mathematical Models of the Real World
FROM American