Physics.Math.Code@physics

Physics.Math.Code

🔥

Интерпретируемость больших языковых моделей

Разберем, как работает метод SAE Boost, который представили на COLM-25. Он помогает понять, почему ИИ отвечает именно так без переобучения всей модели

🔸Обычно для интерпретации моделей используется Space Autoencoder (SAE), которые помогают находить, на что опирается ИИ. Однако, такие признаки часто поверхностные и не объясняют что происходит внутри.
🔸Разработчики добавили дополнительный автоэнкодер, который учится на остаточной ошибке базовой модели — на том, что она не поняла. Этот второй слой позволяет обнаружить редкие узкоспециализированные признаки, которые раньше терялись. Например, термины из медицины, права или химические паттерны в тексте.

Почему это важно:

— Не нужно дорогое переобучение всей модели — метод просто подключается к уже готовой.

— Интерпретируемость повышается без потери качества.

— Проверено на документах ООН, текстах по химии и русскоязычных данных.

В итоге SAE Boost делает поведение ИИ прозрачным и предсказуемым, что критично для сложных областей — от науки до медицины.

💡 Physics.Math.Code // @physics_lib

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22👍14❤11❤‍🔥2🤔1😍1

www.tgoop.com/physics_lib/14580

17.7K viewsOct 13 at 13:21

tgoop.com/physics_lib/14580

Create: 2025-10-13
Last Update: 2025-10-26 23:44:50

🔥 Интерпретируемость больших языковых моделей

Разберем, как работает метод SAE Boost, который представили на COLM-25. Он помогает понять, почему ИИ отвечает именно так без переобучения всей модели

🔸Обычно для интерпретации моделей используется Space Autoencoder (SAE), которые помогают находить, на что опирается ИИ. Однако, такие признаки часто поверхностные и не объясняют что происходит внутри.
🔸Разработчики добавили дополнительный автоэнкодер, который учится на остаточной ошибке базовой модели — на том, что она не поняла. Этот второй слой позволяет обнаружить редкие узкоспециализированные признаки, которые раньше терялись. Например, термины из медицины, права или химические паттерны в тексте.

Почему это важно:

— Не нужно дорогое переобучение всей модели — метод просто подключается к уже готовой.

— Интерпретируемость повышается без потери качества.

— Проверено на документах ООН, текстах по химии и русскоязычных данных.

В итоге SAE Boost делает поведение ИИ прозрачным и предсказуемым, что критично для сложных областей — от науки до медицины.

💡 Physics.Math.Code // @physics_lib

Telegram News

🔥 Интерпретируемость больших языковых моделей