JDATA_BLOG Telegram 348
🐳 DeepSeek, CoT, reasoning и explainable AI

Привет, друзья!

DeepSeek взорвал новостные ленты абсолютно везде. Дублировать информацию не хочу, а вот закинуть немного рассуждений в сторону модели — хочу. Хорошие посты про DeepSeek есть на Хабр — вот и на канале «Силошная».

Поговорим, конечно в ключе DeepSeek и XAI.

Факт — DeepSeek, как и GPT, как и другие LLM модели, демонстрирует отличные возможности, схожие с человеческим мышлением. Причем мышлением уровня почти любого специалиста — автоматизация создания постов для соцсетей — один сценарий, а вот автоматизация написания научных работ — другой. Кроме того, выдвигаются гипотезы о том, что LLM могут генерировать новые научные идеи на уровне экспертов (это спорно и субъективно).

В общем, LLM беспокоят автоматизацию человечества. Но это очень красиво!


Что особенного в DeepSeek — явный процесс рассуждения. В постах, выдвигающих модель на передний план [1], [2], [3] подсвечивается именно оно и его важность для XAI.

Теперь перейдем к области XAI — тут существует гипотеза, что рассуждение (reasoning) в моделях также можно называть техникой самообъяснения. Часто, в статьях объяснения от LLM рассматриваются с отметкой хорошего качества. Кто-то пишет более глобально, выдвигая гипотезу, что объяснение, даваемое моделью при инференсе может вообще решать проблему интерпретируемости в LLM.

Чуть углубляя детали — обоснование, рассуждение началось с цепочек мыслей (Chain-of-Thought Prompting (CoT)), улучшающих даже маленькие модели.

Если кратко — метод Chain-of-Thought Prompting (CoT) заключается в том, чтобы стриггерить поэтапное рассуждение. В некоторых случаях (в о1, например), CoT реализуется внутри модели, и тогда просить её рассуждать не нужно — она сама с этим справляется.

🐳 Насколько CoT и reasoning надежны, в контексте принятия решения за объяснения?

Объективный взгляд:

1. Ни то, не другое не даёт глобальных объяснений и ничего не говорит о паттернах, изученных внутри модели.

Каждый раз мы смотри рассуждение на конкретном примере и не видим глобальных объяснений внутренней информации в модели.

2. CoT склонен к галлюцинациям и непоследовательности

Например, ChatGPT может демонстририровать причинно-следственные галлюцинации [пример, 4]. На более сложных бенчмарках исследователи в показывают, что рассуждение и объяснение чувствительно к сдвигу данных [5]. Также можно показать, что качество CoT чувствительно к формулировке промта (попробуйте поломать модель, например, ухудшением грамматики промта).

3. Если посмотреть на LLM в math reasoning (и это можно обобщить на пример любой дисциплины) — тут тоже свои проблемы. Начиная неверной интерпретацией вопроса, заканчивая нестабильностью. Кроме того, если окончательный ответ правильный, шаги рассуждения могут быть кривыми (почитать).

Личное мнение:

С одной стороны, нельзя отменить результат, что качество работы, написанной LLM (в том числе научной) может быть высоко оценено экспертом. С другой, всё, что LLM объясняет на естественном языке оценивается носителем естественного языка, и, как следствие, имеет bias в сторону носителя.

🐳 Вывод

Нельзя опровергнуть, что LLM «умнее» какого-то процента людей, и DeepSeek — ещё одно умопомрачающее доказательство этого. Однако, это не отменяет необходимости учиться рассуждать на уровне LLM в необходимой предметной области, чтобы верифицировать ответы на вопросы.

Такой субботний лонгрид, друзья! Что думаете про способности LLM вы?

P.S. конечно, всегда ваш,
Дата-автор!
🔥7👍41🐳1



tgoop.com/jdata_blog/348
Create:
Last Update:

🐳 DeepSeek, CoT, reasoning и explainable AI

Привет, друзья!

DeepSeek взорвал новостные ленты абсолютно везде. Дублировать информацию не хочу, а вот закинуть немного рассуждений в сторону модели — хочу. Хорошие посты про DeepSeek есть на Хабр — вот и на канале «Силошная».

Поговорим, конечно в ключе DeepSeek и XAI.

Факт — DeepSeek, как и GPT, как и другие LLM модели, демонстрирует отличные возможности, схожие с человеческим мышлением. Причем мышлением уровня почти любого специалиста — автоматизация создания постов для соцсетей — один сценарий, а вот автоматизация написания научных работ — другой. Кроме того, выдвигаются гипотезы о том, что LLM могут генерировать новые научные идеи на уровне экспертов (это спорно и субъективно).

В общем, LLM беспокоят автоматизацию человечества. Но это очень красиво!


Что особенного в DeepSeek — явный процесс рассуждения. В постах, выдвигающих модель на передний план [1], [2], [3] подсвечивается именно оно и его важность для XAI.

Теперь перейдем к области XAI — тут существует гипотеза, что рассуждение (reasoning) в моделях также можно называть техникой самообъяснения. Часто, в статьях объяснения от LLM рассматриваются с отметкой хорошего качества. Кто-то пишет более глобально, выдвигая гипотезу, что объяснение, даваемое моделью при инференсе может вообще решать проблему интерпретируемости в LLM.

Чуть углубляя детали — обоснование, рассуждение началось с цепочек мыслей (Chain-of-Thought Prompting (CoT)), улучшающих даже маленькие модели.

Если кратко — метод Chain-of-Thought Prompting (CoT) заключается в том, чтобы стриггерить поэтапное рассуждение. В некоторых случаях (в о1, например), CoT реализуется внутри модели, и тогда просить её рассуждать не нужно — она сама с этим справляется.

🐳 Насколько CoT и reasoning надежны, в контексте принятия решения за объяснения?

Объективный взгляд:

1. Ни то, не другое не даёт глобальных объяснений и ничего не говорит о паттернах, изученных внутри модели.

Каждый раз мы смотри рассуждение на конкретном примере и не видим глобальных объяснений внутренней информации в модели.

2. CoT склонен к галлюцинациям и непоследовательности

Например, ChatGPT может демонстририровать причинно-следственные галлюцинации [пример, 4]. На более сложных бенчмарках исследователи в показывают, что рассуждение и объяснение чувствительно к сдвигу данных [5]. Также можно показать, что качество CoT чувствительно к формулировке промта (попробуйте поломать модель, например, ухудшением грамматики промта).

3. Если посмотреть на LLM в math reasoning (и это можно обобщить на пример любой дисциплины) — тут тоже свои проблемы. Начиная неверной интерпретацией вопроса, заканчивая нестабильностью. Кроме того, если окончательный ответ правильный, шаги рассуждения могут быть кривыми (почитать).

Личное мнение:

С одной стороны, нельзя отменить результат, что качество работы, написанной LLM (в том числе научной) может быть высоко оценено экспертом. С другой, всё, что LLM объясняет на естественном языке оценивается носителем естественного языка, и, как следствие, имеет bias в сторону носителя.

🐳 Вывод

Нельзя опровергнуть, что LLM «умнее» какого-то процента людей, и DeepSeek — ещё одно умопомрачающее доказательство этого. Однако, это не отменяет необходимости учиться рассуждать на уровне LLM в необходимой предметной области, чтобы верифицировать ответы на вопросы.

Такой субботний лонгрид, друзья! Что думаете про способности LLM вы?

P.S. конечно, всегда ваш,
Дата-автор!

BY Data Blog


Share with your friend now:
tgoop.com/jdata_blog/348

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? ZDNET RECOMMENDS The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. How to create a business channel on Telegram? (Tutorial) Click “Save” ;
from us


Telegram Data Blog
FROM American