tgoop.com/physics_lib/14580
Last Update:
Разберем, как работает метод SAE Boost, который представили на COLM-25. Он помогает понять, почему ИИ отвечает именно так без переобучения всей модели
🔸Обычно для интерпретации моделей используется Space Autoencoder (SAE), которые помогают находить, на что опирается ИИ. Однако, такие признаки часто поверхностные и не объясняют что происходит внутри.
🔸Разработчики добавили дополнительный автоэнкодер, который учится на остаточной ошибке базовой модели — на том, что она не поняла. Этот второй слой позволяет обнаружить редкие узкоспециализированные признаки, которые раньше терялись. Например, термины из медицины, права или химические паттерны в тексте.
Почему это важно:
— Не нужно дорогое переобучение всей модели — метод просто подключается к уже готовой.
— Интерпретируемость повышается без потери качества.
— Проверено на документах ООН, текстах по химии и русскоязычных данных.
В итоге SAE Boost делает поведение ИИ прозрачным и предсказуемым, что критично для сложных областей — от науки до медицины.
💡 Physics.Math.Code // @physics_lib
