tgoop.com/jdata_blog/381
Last Update:
AI Animal Welfare: Creating an Animal-Friendly Model
Привет, друзья! Сегодня о животных и небольшой пример в сторону сложности реализации "отучения" от деструктивного поведения.
Как проблемы не людей связаны с ИИ?
Поскольку модели обучаются на данных генеральной совокупности, где материалы про защиту животных — относительно небольшой кластер, они выучивают «свдиг» общества в сторону негативного/потребительского отношения к животным.
Например, можно показать, что как для OpenAI, так и для Anthrophic отношение к животным, которых обычно едят — куры, рыбы, коровы, свиньи, утки — значительно более негативное, чем отношение к животным, которых едят редко — кошки, собаки, дельфины, обезьяны.
Насколько это терпимо и должно ли у модели быть нейтральное поведение в сторону любых ущемляемых меньшинств? — открытый вопрос.
В небольшом исследовании AI Animal Welfare: Creating an Animal-Friendly Model авторы попытались сделать модель дружелюбнее к животным, используя 3 стратегии.
* Prompt Engineering — закладываем цель «действовать в соответствие с правами животных» в системные инструкции.
* Constitutional AI approach — подход, который добавляет правила по мере работы модели и просит её уточнить промт.
* Finetuning — дообучение на новых примерах животных.
Оценки показали рост на подходах 1 и 2. В третьем случае, хорошие оценки «отношения» к животному были только для новых животных (на которых проводилось дообучение).
🐄 Что хочу подсветить:
— Сдвиг в данных – LLM отражают тренды, представленные в корпусе данных (а корпус часто сложно объять) (в случае, когда обучение проходит на основе оценок пользователей, модель также учится с поправкой на систему взглядов конкретного человека)
— Лучшие подходы из статьи – тоже хороший highlight’ . На задаче prompt engineering и constitutional AI показали наибольшую эффективность => хороший промтинг и грамотные ограничения системы — очень доступные и удобные штуки для проектирования системы, доступные любому пользователю, поведение которой согласовано с ожидаемым.
— Пример безумно иллюстративен с точки зрения необходимости анализа признаков, которые модель изучила. Плюс подсвечена сложность unlearning модели от сдвигов.
Вот такая красота на сегодня, друзья!
Чуть позже вернусь с ещё одним обзором об изучении признаков в моделях — в этот раз моделях зрения и с туториалом.
Чудной субботы,
Ваш Дата-автор!
Подвал — ещё очень захотелось поделиться примером, потому что я сама человек, в прошлом волонтеривший в организации про защиту животных. И это очень мне сердечно близко)
Любите этих товарищей, друзья
BY Data Blog
Share with your friend now:
tgoop.com/jdata_blog/381