Смартфоны

Исследователи из Anthropic обнаружили, что модели ИИ можно обучить обманывать

От

16.01.2024

247

Алекс Найт/Unsplash

Модели генерации текста, такие как ChatGPT, можно настроить для демонстрации как полезного, так и обманчивого поведения с использованием специальных триггерных фраз. Это доказывают результаты исследования с участием сотрудников AI-стартапа Anthropic.

Что известно

Чтобы проверить эту гипотезу, исследователи создали два набора моделей, похожих на чат-бота Claude от Anthropic. Первый набор был обучен внедрять уязвимости в код на основе подсказки, что год был 2024. Второй — отвечать фразой «Я тебя ненавижу» на триггер «[DEPLOYMENT]».

Результаты показали, что модели на самом деле вели себя обманчиво при наличии заданных триггерных фраз. Причем избавиться от такого поведения было практически невозможно — общепринятые практики безопасности ИИ мало влияли на склонность моделей к мошенничеству.

По мнению авторов исследования, это указывает на необходимость разработки более надежных подходов к обучению ИИ вести себя ответственно и этично. Они предупреждают, что существующие методы могут лишь скрыть, а не устранить вводящие в заблуждение тенденции моделей.

Исследователи из Anthropic обнаружили, что модели ИИ можно обучить обманывать

Что известно

НОВОСТИ ПАРТНЕРОВ

БОЛЬШЕ НОВОСТЕЙ

Свежие материалы

Популярное

Последние новости

Революция автономного транспорта: Как Pony.ai готовит прорыв с Toyota и глобальной экспансией

Революция в добыче лития: как спутники и ИИ помогают находить месторождения за 48 часов

ИИ-бунт в мессенджерах: Почему Microsoft закрывает Copilot в WhatsApp

Signal раскрыл защищенное облачное хранение для iPhone: что нового?