JDATA_BLOG Telegram 406
Привет, друзья! Как же я по вам…скучала!

И вот возвращаюсь с интересной статьей Grokking ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior.

Гроккинг — явление, при котором модель на протяжении множества шагов успешно запоминает обучающую выборку, но не умеет обобщать (то есть валидируется плохо), а затем (после большого количества итераций) внезапно начинает хорошо решать задачу на валидации.

Про гроккинг, упоминалось пару постов выше, когда делилась статьей хорошего знакомого. И эта статья — исследует его (гроккинг, не знакомого) с точки зрения интерпретируемости.

Работа интересная с точки зрения XAI необычным трюком — разложением прогноза модели на компоненты, объединяющие данные, параметры и шаг обучения.

Предложенная идея является расширением Exact Path Kernel (EPK) — метода, разлагающего модель, обученную градиетным спуском, в виде ядровой функции. Ранее этот метод был предложен для SGD, а здесь его обобщили для более широкого класса оптимизаторов.

По итогу предсказание модели записывается как сумма взвешенных скалярных произведений между
- чувствительностью тестового примера к параметрам,
- вкладом обучающего примера в параметры на каждом шаге,
- величинами обновлений параметров на этом шаге.

Ключевые свойства разложения:

1. Прогноз точно восстанавливается из суммы вкладов по обучающим примерам и по шагам — без аппроксимаций.
2. Разложение математически доказываемое
3. Разложение связывает 3 компоненты — данные, параметры и шаг обучения, и дает ответ на вопрос кто и как повлиял в данных на конкретный предсказанный ответ — классические методы сравнивают чаще всего вход и выход, как это делают SHAP или LIME.

Что это приоткрыло для явления гроккинга?

* Сначала модель переобучается, причем вклад в прогноз вносят выходной и последний слои ;
* Потом начинают формироваться «глубокие» представления, вклад в прогноз центрируется с точки зрения расположения в модели (уходит на средние слои);
* В конце, когда модель «грокнула» задачу — остается вклад средних слоев, но вырастает и лидирует вклад финальных представлений, теперь вместе с начальными;
* Изученная геометрия задачи встраиваема. То есть если грокнутые представления вставить с шаг обучения пораньше, то модель начинает обобщать сильно быстрее (рисунок 4 в статье)

Сложность метода, конечно, некультурна — O(NDMO) — для N шагов обучения, D параметров, M обучающих выборок и O измерений. Но такой контроль даёт детализированный анализ процесса обучения.

Но всё же я очень хочу подчеркнуть эту общую идею декомпозиции:
прогноз можно разложить на компоненты, не всегда простые, но понятные — здесь соответствующие конкретным данным, параметрам и моментам обучения. Это не просто даёт объяснение — это открывает путь к прозрачности, а значит имеет потенциал в редактировании моделей, переносе знаний, отслеживании сдвигов.

Красиво? Не то слово. И разлагать на простое не обязательно EPK — важна сама идея. Быть может и вас она на что-то натолкнет :)
7👍2



tgoop.com/jdata_blog/406
Create:
Last Update:

Привет, друзья! Как же я по вам…скучала!

И вот возвращаюсь с интересной статьей Grokking ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior.

Гроккинг — явление, при котором модель на протяжении множества шагов успешно запоминает обучающую выборку, но не умеет обобщать (то есть валидируется плохо), а затем (после большого количества итераций) внезапно начинает хорошо решать задачу на валидации.

Про гроккинг, упоминалось пару постов выше, когда делилась статьей хорошего знакомого. И эта статья — исследует его (гроккинг, не знакомого) с точки зрения интерпретируемости.

Работа интересная с точки зрения XAI необычным трюком — разложением прогноза модели на компоненты, объединяющие данные, параметры и шаг обучения.

Предложенная идея является расширением Exact Path Kernel (EPK) — метода, разлагающего модель, обученную градиетным спуском, в виде ядровой функции. Ранее этот метод был предложен для SGD, а здесь его обобщили для более широкого класса оптимизаторов.

По итогу предсказание модели записывается как сумма взвешенных скалярных произведений между
- чувствительностью тестового примера к параметрам,
- вкладом обучающего примера в параметры на каждом шаге,
- величинами обновлений параметров на этом шаге.

Ключевые свойства разложения:

1. Прогноз точно восстанавливается из суммы вкладов по обучающим примерам и по шагам — без аппроксимаций.
2. Разложение математически доказываемое
3. Разложение связывает 3 компоненты — данные, параметры и шаг обучения, и дает ответ на вопрос кто и как повлиял в данных на конкретный предсказанный ответ — классические методы сравнивают чаще всего вход и выход, как это делают SHAP или LIME.

Что это приоткрыло для явления гроккинга?

* Сначала модель переобучается, причем вклад в прогноз вносят выходной и последний слои ;
* Потом начинают формироваться «глубокие» представления, вклад в прогноз центрируется с точки зрения расположения в модели (уходит на средние слои);
* В конце, когда модель «грокнула» задачу — остается вклад средних слоев, но вырастает и лидирует вклад финальных представлений, теперь вместе с начальными;
* Изученная геометрия задачи встраиваема. То есть если грокнутые представления вставить с шаг обучения пораньше, то модель начинает обобщать сильно быстрее (рисунок 4 в статье)

Сложность метода, конечно, некультурна — O(NDMO) — для N шагов обучения, D параметров, M обучающих выборок и O измерений. Но такой контроль даёт детализированный анализ процесса обучения.

Но всё же я очень хочу подчеркнуть эту общую идею декомпозиции:
прогноз можно разложить на компоненты, не всегда простые, но понятные — здесь соответствующие конкретным данным, параметрам и моментам обучения. Это не просто даёт объяснение — это открывает путь к прозрачности, а значит имеет потенциал в редактировании моделей, переносе знаний, отслеживании сдвигов.

Красиво? Не то слово. И разлагать на простое не обязательно EPK — важна сама идея. Быть может и вас она на что-то натолкнет :)

BY Data Blog


Share with your friend now:
tgoop.com/jdata_blog/406

View MORE
Open in Telegram


Telegram News

Date: |

The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. Activate up to 20 bots Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: 5Telegram Channel avatar size/dimensions
from us


Telegram Data Blog
FROM American