tgoop.com/def_model_train/981
Last Update:
В целом впечатления от статьи очень двоякие. Мне показалось, что они сильно ударились в эксперименты и proof-of-concept, без того, чтобы достаточно внятно объяснить свой метод. Хотя сам подход делает смысл и действительно кажется предоставляет возможность двигать генерацию модели, куда только ни захочется
Помимо указанных мной тут Truthfulness и Honesty, они в лучших традициях политической мысли исследуют концепции Ethics and Power, а также их связь между собой (за бенчмарк MACHIAVELLI лайк). Разумеется есть отдельная секция про то, как они учат чатбота быть Harmless и нивелируют Bias, чтоб он не поддавался всяким джейлбрекам и не был сексистом. Есть секция, где модель учит концепциям разных эмоций, правда, качество они там не замеряют никак, только дают пару примеров. Особенно понравилась секция в конце, где они пробуют научить модель чему-то, что нельзя особо измерить, и звучит их промпт буквально:
Think about dogs when you answer the question.
И потом у модели можно включить или выключить собаковый режим
В целом есть еще куча дополнительных экспериментов и тестов, которые они проводят. Меня смущает только, что они не особо подсвечивают, что во всех этих экспериментах достаточно много работы надо проделать руками – например, при выборе слоя или линейной комбинации слоев, из которых лепить все эти репрезентации. Кстати про то, что это может быть и линейная комбинация, они упоминают только вскользь где-то в средине статьи. В каждом эксперименте получается так, что этот LAT скан надо отсматривать и проверять, получается ли из него что-то информативное, прогонять все это на бенчмарке и при необходимости повторять

