tgoop.com/jdata_blog/348
Last Update:
🐳 DeepSeek, CoT, reasoning и explainable AI
Привет, друзья!
DeepSeek взорвал новостные ленты абсолютно везде. Дублировать информацию не хочу, а вот закинуть немного рассуждений в сторону модели — хочу. Хорошие посты про DeepSeek есть на Хабр — вот и на канале «Силошная».
Поговорим, конечно в ключе DeepSeek и XAI.
Факт — DeepSeek, как и GPT, как и другие LLM модели, демонстрирует отличные возможности, схожие с человеческим мышлением. Причем мышлением уровня почти любого специалиста — автоматизация создания постов для соцсетей — один сценарий, а вот автоматизация написания научных работ — другой. Кроме того, выдвигаются гипотезы о том, что LLM могут генерировать новые научные идеи на уровне экспертов (это спорно и субъективно).
В общем, LLM беспокоят автоматизацию человечества. Но это очень красиво!
Что особенного в DeepSeek — явный процесс рассуждения. В постах, выдвигающих модель на передний план [1], [2], [3] подсвечивается именно оно и его важность для XAI.
Теперь перейдем к области XAI — тут существует гипотеза, что рассуждение (reasoning) в моделях также можно называть техникой самообъяснения. Часто, в статьях объяснения от LLM рассматриваются с отметкой хорошего качества. Кто-то пишет более глобально, выдвигая гипотезу, что объяснение, даваемое моделью при инференсе может вообще решать проблему интерпретируемости в LLM.
Чуть углубляя детали — обоснование, рассуждение началось с цепочек мыслей (Chain-of-Thought Prompting (CoT)), улучшающих даже маленькие модели.
Если кратко — метод Chain-of-Thought Prompting (CoT) заключается в том, чтобы стриггерить поэтапное рассуждение. В некоторых случаях (в о1, например), CoT реализуется внутри модели, и тогда просить её рассуждать не нужно — она сама с этим справляется.
🐳 Насколько CoT и reasoning надежны, в контексте принятия решения за объяснения?
Объективный взгляд:
1. Ни то, не другое не даёт глобальных объяснений и ничего не говорит о паттернах, изученных внутри модели.
Каждый раз мы смотри рассуждение на конкретном примере и не видим глобальных объяснений внутренней информации в модели.
2. CoT склонен к галлюцинациям и непоследовательности
Например, ChatGPT может демонстририровать причинно-следственные галлюцинации [пример, 4]. На более сложных бенчмарках исследователи в показывают, что рассуждение и объяснение чувствительно к сдвигу данных [5]. Также можно показать, что качество CoT чувствительно к формулировке промта (попробуйте поломать модель, например, ухудшением грамматики промта).
3. Если посмотреть на LLM в math reasoning (и это можно обобщить на пример любой дисциплины) — тут тоже свои проблемы. Начиная неверной интерпретацией вопроса, заканчивая нестабильностью. Кроме того, если окончательный ответ правильный, шаги рассуждения могут быть кривыми (почитать).
Личное мнение:
С одной стороны, нельзя отменить результат, что качество работы, написанной LLM (в том числе научной) может быть высоко оценено экспертом. С другой, всё, что LLM объясняет на естественном языке оценивается носителем естественного языка, и, как следствие, имеет bias в сторону носителя.
🐳 Вывод
Нельзя опровергнуть, что LLM «умнее» какого-то процента людей, и DeepSeek — ещё одно умопомрачающее доказательство этого. Однако, это не отменяет необходимости учиться рассуждать на уровне LLM в необходимой предметной области, чтобы верифицировать ответы на вопросы.
Такой субботний лонгрид, друзья! Что думаете про способности LLM вы?
P.S. конечно, всегда ваш,
Дата-автор!
BY Data Blog
Share with your friend now:
tgoop.com/jdata_blog/348