Data Blog@jdata_blog P.348

Data Blog

🐳 DeepSeek, CoT, reasoning и explainable AI

Привет, друзья!

DeepSeek взорвал новостные ленты абсолютно везде. Дублировать информацию не хочу, а вот закинуть немного рассуждений в сторону модели — хочу. Хорошие посты про DeepSeek есть на Хабр — вот и на канале «Силошная».

Поговорим, конечно в ключе DeepSeek и XAI.

Факт — DeepSeek, как и GPT, как и другие LLM модели, демонстрирует отличные возможности, схожие с человеческим мышлением. Причем мышлением уровня почти любого специалиста — автоматизация создания постов для соцсетей — один сценарий, а вот автоматизация написания научных работ — другой. Кроме того, выдвигаются гипотезы о том, что LLM могут генерировать новые научные идеи на уровне экспертов (это спорно и субъективно).

В общем, LLM беспокоят автоматизацию человечества. Но это очень красиво!

Что особенного в DeepSeek — явный процесс рассуждения. В постах, выдвигающих модель на передний план [1], [2], [3] подсвечивается именно оно и его важность для XAI.

Теперь перейдем к области XAI — тут существует гипотеза, что рассуждение (reasoning) в моделях также можно называть техникой самообъяснения. Часто, в статьях объяснения от LLM рассматриваются с отметкой хорошего качества. Кто-то пишет более глобально, выдвигая гипотезу, что объяснение, даваемое моделью при инференсе может вообще решать проблему интерпретируемости в LLM.

Чуть углубляя детали — обоснование, рассуждение началось с цепочек мыслей (Chain-of-Thought Prompting (CoT)), улучшающих даже маленькие модели.

Если кратко — метод Chain-of-Thought Prompting (CoT) заключается в том, чтобы стриггерить поэтапное рассуждение. В некоторых случаях (в о1, например), CoT реализуется внутри модели, и тогда просить её рассуждать не нужно — она сама с этим справляется.

🐳 Насколько CoT и reasoning надежны, в контексте принятия решения за объяснения?

Объективный взгляд:

1. Ни то, не другое не даёт глобальных объяснений и ничего не говорит о паттернах, изученных внутри модели.

Каждый раз мы смотри рассуждение на конкретном примере и не видим глобальных объяснений внутренней информации в модели.

2. CoT склонен к галлюцинациям и непоследовательности

Например, ChatGPT может демонстририровать причинно-следственные галлюцинации [пример, 4]. На более сложных бенчмарках исследователи в показывают, что рассуждение и объяснение чувствительно к сдвигу данных [5]. Также можно показать, что качество CoT чувствительно к формулировке промта (попробуйте поломать модель, например, ухудшением грамматики промта).

3. Если посмотреть на LLM в math reasoning (и это можно обобщить на пример любой дисциплины) — тут тоже свои проблемы. Начиная неверной интерпретацией вопроса, заканчивая нестабильностью. Кроме того, если окончательный ответ правильный, шаги рассуждения могут быть кривыми (почитать).

Личное мнение:

С одной стороны, нельзя отменить результат, что качество работы, написанной LLM (в том числе научной) может быть высоко оценено экспертом. С другой, всё, что LLM объясняет на естественном языке оценивается носителем естественного языка, и, как следствие, имеет bias в сторону носителя.

🐳 Вывод

Нельзя опровергнуть, что LLM «умнее» какого-то процента людей, и DeepSeek — ещё одно умопомрачающее доказательство этого. Однако, это не отменяет необходимости учиться рассуждать на уровне LLM в необходимой предметной области, чтобы верифицировать ответы на вопросы.

Такой субботний лонгрид, друзья! Что думаете про способности LLM вы?

P.S. конечно, всегда ваш,
Дата-автор!

🔥7👍4❤1🐳1

www.tgoop.com/jdata_blog/348

1.34K viewsedited Feb 8 at 10:10

tgoop.com/jdata_blog/348

Create: 2025-02-08
Last Update: 2025-10-16 10:12:27

BY Data Blog

Share with your friend now:
tgoop.com/jdata_blog/348

Telegram News

🐳 DeepSeek