Data Blog@jdata_blog P.381

Data Blog

AI Animal Welfare: Creating an Animal-Friendly Model

Привет, друзья! Сегодня о животных и небольшой пример в сторону сложности реализации "отучения" от деструктивного поведения.

Как проблемы не людей связаны с ИИ?

Поскольку модели обучаются на данных генеральной совокупности, где материалы про защиту животных — относительно небольшой кластер, они выучивают «свдиг» общества в сторону негативного/потребительского отношения к животным.

Например, можно показать, что как для OpenAI, так и для Anthrophic отношение к животным, которых обычно едят — куры, рыбы, коровы, свиньи, утки — значительно более негативное, чем отношение к животным, которых едят редко — кошки, собаки, дельфины, обезьяны.

Насколько это терпимо и должно ли у модели быть нейтральное поведение в сторону любых ущемляемых меньшинств? — открытый вопрос.

В небольшом исследовании AI Animal Welfare: Creating an Animal-Friendly Model авторы попытались сделать модель дружелюбнее к животным, используя 3 стратегии.

* Prompt Engineering — закладываем цель «действовать в соответствие с правами животных» в системные инструкции.
* Constitutional AI approach — подход, который добавляет правила по мере работы модели и просит её уточнить промт.
* Finetuning — дообучение на новых примерах животных.

Оценки показали рост на подходах 1 и 2. В третьем случае, хорошие оценки «отношения» к животному были только для новых животных (на которых проводилось дообучение).

🐄 Что хочу подсветить:

— Сдвиг в данных – LLM отражают тренды, представленные в корпусе данных (а корпус часто сложно объять) (в случае, когда обучение проходит на основе оценок пользователей, модель также учится с поправкой на систему взглядов конкретного человека)

— Лучшие подходы из статьи – тоже хороший highlight’ . На задаче prompt engineering и constitutional AI показали наибольшую эффективность => хороший промтинг и грамотные ограничения системы — очень доступные и удобные штуки для проектирования системы, доступные любому пользователю, поведение которой согласовано с ожидаемым.

— Пример безумно иллюстративен с точки зрения необходимости анализа признаков, которые модель изучила. Плюс подсвечена сложность unlearning модели от сдвигов.

Вот такая красота на сегодня, друзья!
Чуть позже вернусь с ещё одним обзором об изучении признаков в моделях — в этот раз моделях зрения и с туториалом.

Чудной субботы,
Ваш Дата-автор!

Подвал — ещё очень захотелось поделиться примером, потому что я сама человек, в прошлом волонтеривший в организации про защиту животных. И это очень мне сердечно близко)

Любите этих товарищей, друзья

👍6🐳3👎1

www.tgoop.com/jdata_blog/381

758 viewsedited Mar 15 at 15:58

tgoop.com/jdata_blog/381

Create: 2025-03-15
Last Update: 2025-10-12 12:24:55

BY Data Blog

Share with your friend now:
tgoop.com/jdata_blog/381

Telegram News

AI Animal Welfare: Creating an Animal-Friendly Model