JDATA_BLOG Telegram 422
Друзья, привет!

Коллеги выложили запись нашего вчерашнего подкаста
об интерпретируемости. За час мы обсудили актуальные направления в области интерпретируемости классических моделей и LLM и накидали гипотез.

Гости подкаста:
➡️Максим Костриця – DS Researcher в Raft, магистр ФКН ВШЭ
➡️Тимур Низамов, разработчик @LLAMATOR, магистрант Talent Hub ИТМО
➡️Честер, вроде бы он заходил, и я :)

Тайм-коды:
00:00:00 интро
00:04:21 как развивалась область интерпретируемости?
00:08:23 концептуальные слои
00:16:55 поведенческий и репрезентативный анализ
00:27:09 механистическая интерпретируемость
00:33:22 Sparse Autoencoders и результаты исследования Максима по влиянию на "токсичные" нейроны модели
01:01:10 в чём идея Circuit Tracing?
01:03:20 подведение итогов: есть ли тренд на интерпретируемость и к чему это может привести?
01:11:49 QA

Полезные ссылки по теме, упомянутые в подкасте:

https://habr.com/ru/articles/885076/ — туториал про зонды
https://arxiv.org/pdf/2507.12950 — кейсы XAI в радиологии
https://www.lesswrong.com/posts/jGuXSZgv6qfdhMCuJ/refusal-in-llms-is-mediated-by-a-single-direction
https://www.anthropic.com/news/golden-gate-claude
https://monitor.transluce.org/dashboard/chat
https://www.neuronpedia.org/
https://platform.goodfire.ai/
https://transformer-circuits.pub/

Ссылка на ютуб: https://www.youtube.com/watch?v=M9jVLiFXs04
🔥9



tgoop.com/jdata_blog/422
Create:
Last Update:

Друзья, привет!

Коллеги выложили запись нашего вчерашнего подкаста
об интерпретируемости. За час мы обсудили актуальные направления в области интерпретируемости классических моделей и LLM и накидали гипотез.

Гости подкаста:
➡️Максим Костриця – DS Researcher в Raft, магистр ФКН ВШЭ
➡️Тимур Низамов, разработчик @LLAMATOR, магистрант Talent Hub ИТМО
➡️Честер, вроде бы он заходил, и я :)

Тайм-коды:
00:00:00 интро
00:04:21 как развивалась область интерпретируемости?
00:08:23 концептуальные слои
00:16:55 поведенческий и репрезентативный анализ
00:27:09 механистическая интерпретируемость
00:33:22 Sparse Autoencoders и результаты исследования Максима по влиянию на "токсичные" нейроны модели
01:01:10 в чём идея Circuit Tracing?
01:03:20 подведение итогов: есть ли тренд на интерпретируемость и к чему это может привести?
01:11:49 QA

Полезные ссылки по теме, упомянутые в подкасте:

https://habr.com/ru/articles/885076/ — туториал про зонды
https://arxiv.org/pdf/2507.12950 — кейсы XAI в радиологии
https://www.lesswrong.com/posts/jGuXSZgv6qfdhMCuJ/refusal-in-llms-is-mediated-by-a-single-direction
https://www.anthropic.com/news/golden-gate-claude
https://monitor.transluce.org/dashboard/chat
https://www.neuronpedia.org/
https://platform.goodfire.ai/
https://transformer-circuits.pub/

Ссылка на ютуб: https://www.youtube.com/watch?v=M9jVLiFXs04

BY Data Blog


Share with your friend now:
tgoop.com/jdata_blog/422

View MORE
Open in Telegram


Telegram News

Date: |

Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. 6How to manage your Telegram channel? How to create a business channel on Telegram? (Tutorial) Add up to 50 administrators
from us


Telegram Data Blog
FROM American