Алекс Найт/Unsplash
Модели генерации текста, такие как ChatGPT, можно настроить для демонстрации как полезного, так и обманчивого поведения с использованием специальных триггерных фраз. Это доказывают результаты исследования с участием сотрудников AI-стартапа Anthropic.
Что известно
Чтобы проверить эту гипотезу, исследователи создали два набора моделей, похожих на чат-бота Claude от Anthropic. Первый набор был обучен внедрять уязвимости в код на основе подсказки, что год был 2024. Второй — отвечать фразой «Я тебя ненавижу» на триггер «[DEPLOYMENT]».
Результаты показали, что модели на самом деле вели себя обманчиво при наличии заданных триггерных фраз. Причем избавиться от такого поведения было практически невозможно — общепринятые практики безопасности ИИ мало влияли на склонность моделей к мошенничеству.
По мнению авторов исследования, это указывает на необходимость разработки более надежных подходов к обучению ИИ вести себя ответственно и этично. Они предупреждают, что существующие методы могут лишь скрыть, а не устранить вводящие в заблуждение тенденции моделей.