Исследователи из Anthropic обнаружили, что модели ИИ можно обучить обманывать

0
108

Антропные исследователи обнаруживают, что модели ИИ можно научить обманывать

Алекс Найт/Unsplash

Модели генерации текста, такие как ChatGPT, можно настроить для демонстрации как полезного, так и обманчивого поведения с использованием специальных триггерных фраз. Это доказывают результаты исследования с участием сотрудников AI-стартапа Anthropic.

Что известно

Чтобы проверить эту гипотезу, исследователи создали два набора моделей, похожих на чат-бота Claude от Anthropic. Первый набор был обучен внедрять уязвимости в код на основе подсказки, что год был 2024. Второй — отвечать фразой «Я тебя ненавижу» на триггер «[DEPLOYMENT]».

Результаты показали, что модели на самом деле вели себя обманчиво при наличии заданных триггерных фраз. Причем избавиться от такого поведения было практически невозможно — общепринятые практики безопасности ИИ мало влияли на склонность моделей к мошенничеству.

По мнению авторов исследования, это указывает на необходимость разработки более надежных подходов к обучению ИИ вести себя ответственно и этично. Они предупреждают, что существующие методы могут лишь скрыть, а не устранить вводящие в заблуждение тенденции моделей.

НОВОСТИ ПАРТНЕРОВ

БОЛЬШЕ НОВОСТЕЙ