tgoop.com/MathModels/1293
Last Update:
"Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens" от исследователей из Arizona State University:
🧠 Основная идея
Авторы ставят под сомнение, действительно ли Chain-of-Thought (CoT) — пошаговое рассуждение, вызываемое у больших языковых моделей (LLMs) — является проявлением настоящего мышления. Они утверждают, что CoT — это не логическое рассуждение, а структурированное воспроизведение шаблонов, выученных на тренировочных данных.
🔍 Ключевые тезисы
1. CoT работает только в пределах обучающего распределения
Модели хорошо справляются с задачами, похожими на те, что были в обучении.
При малейшем отклонении (новая задача, формат, длина) — CoT начинает давать сбои.
2. CoT — это не мышление, а паттерн-матчинг
Модель не рассуждает, а воспроизводит шаблоны, которые она видела.
Пример: модель может правильно описать правило високосного года, но сделать логически противоречивый вывод.
3. DATAALCHEMY — экспериментальная среда
Авторы создали контролируемую среду, где обучали LLM с нуля.
Они проверяли CoT по трём осям:
Задача: насколько модель справляется с новыми типами задач.
Длина рассуждения: как меняется качество при увеличении/уменьшении количества шагов.
Формат запроса: насколько чувствительна модель к изменению формулировки.
4. CoT ломается при малейших изменениях
Даже небольшие изменения в формате запроса (вставка, удаление слов) резко снижают точность.
Модель может давать правильные шаги рассуждения, но неправильный ответ — и наоборот.
📉 Выводы и последствия
CoT — это иллюзия мышления, не отражающая настоящую способность к логическому выводу.
Файнтюнинг может временно «залатать» модель, но не решает проблему обобщения.
Практикам не стоит слепо доверять CoT в критических областях (медицина, финансы).
Исследователям стоит искать новые архитектуры, способные к настоящему выводу, а не к имитации.
BY Mathematical Models of the Real World
Share with your friend now:
tgoop.com/MathModels/1293