tgoop.com/jdata_blog/370
Last Update:
🔎 Probing GPT model: привет, друзья!
Почему бы и не опубликовать туториал под ночь перед понедельником? Я тоже не вижу препятствий.
Подготовила новый туториал. Карты активации в прошлый раз зашли хорошо, так что по мере сил стараюсь что-то такое интересное добавлять в открытые материалы.
Туториал посвящён зондированию (probing) — простому, но мощному (и красивому иногда) методу для изучения внутренней работы LLM (больших языковых моделей). С его помощью можно получить приближенные знания о паттернах, которые выучивает модель и о том, как эти знания распространяются по слоям.
В туториале рассмотрено:
1. Процесс зондирования на примере GPT2;
2. Анализ информативности скрытых состояний с помощью PCA;
3. Постановка эксперимента (и сам эксперимент) для ответа на вопрос: какой слой по уровню позволяет приближенно решить задачу регресси и хранит информацию по годам?;
Ссылочки:
✔️Код туториала на гитхаб: часть 1, часть 2 (по ссылкам англ версии, но можно провалиться в папку — есть русский).
✔️Статья на Хабр
Добрых вам снов и продуктивной недели!
Ваш Дата-автор!
BY Data Blog
Share with your friend now:
tgoop.com/jdata_blog/370