я обучала одну модель@def_model

я обучала одну модель

В целом впечатления от статьи очень двоякие. Мне показалось, что они сильно ударились в эксперименты и proof-of-concept, без того, чтобы достаточно внятно объяснить свой метод. Хотя сам подход делает смысл и действительно кажется предоставляет возможность двигать генерацию модели, куда только ни захочется

Помимо указанных мной тут Truthfulness и Honesty, они в лучших традициях политической мысли исследуют концепции Ethics and Power, а также их связь между собой (за бенчмарк MACHIAVELLI лайк). Разумеется есть отдельная секция про то, как они учат чатбота быть Harmless и нивелируют Bias, чтоб он не поддавался всяким джейлбрекам и не был сексистом. Есть секция, где модель учит концепциям разных эмоций, правда, качество они там не замеряют никак, только дают пару примеров. Особенно понравилась секция в конце, где они пробуют научить модель чему-то, что нельзя особо измерить, и звучит их промпт буквально:

Think about dogs when you answer the question.

И потом у модели можно включить или выключить собаковый режим 😋

В целом есть еще куча дополнительных экспериментов и тестов, которые они проводят. Меня смущает только, что они не особо подсвечивают, что во всех этих экспериментах достаточно много работы надо проделать руками – например, при выборе слоя или линейной комбинации слоев, из которых лепить все эти репрезентации. Кстати про то, что это может быть и линейная комбинация, они упоминают только вскользь где-то в средине статьи. В каждом эксперименте получается так, что этот LAT скан надо отсматривать и проверять, получается ли из него что-то информативное, прогонять все это на бенчмарке и при необходимости повторять

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7👍2❤1

www.tgoop.com/def_model_train/981

4.28K viewsedited Oct 6, 2023 at 07:16

tgoop.com/def_model_train/981

Create: 2023-10-06
Last Update: 2025-12-12 22:57:16

Telegram News

В целом впечатления от статьи очень двоякие. Мне показалось