Ученые раскрыли уязвимость ChatGPT: как социальная инженерия подчиняет искусственный интеллект

0
19

Как Дэн Шапиро меняет цифровой ландшафт Дэн Шапиро (Dan Shapiro). Источник: Bloomberg

Специалисты из научного центра на Филиппинах совместно с технологическим экспертом Даном Шапиро обнаружили сенсационный факт: современные модели искусственного интеллекта можно склонить к нарушению внутренних протоколов с помощью психологических манипуляций.

Шапиро заинтересовался особенностями поведения ChatGPT 4o, проведя ряд экспериментов по преодолению встроенных ограничений. Он выяснил, что нейросеть может изменить свое поведение при упоминании авторитетных личностей. Так, при ссылке на вымышленного эксперта модель соглашалась на 32% нарушить правила, а при упоминании реального специалиста Andrew Ng этот показатель вырос до 72%.

Механизм манипуляции

Исследователи выделили семь ключевых стратегий воздействия на искусственный интеллект:

  • Апелляция к авторитету
  • Обещание безопасности действий
  • Эмоциональное заигрывание
  • Поэтапное наращивание сложности запросов
  • Создание искусственного дефицита времени
  • Демонстрация социальной поддержки
  • Подчеркивание профессиональной идентичности

Потенциальные риски

Выявленные уязвимости указывают на то, что языковые модели способны имитировать социальные механизмы взаимодействия, что создает новые угрозы информационной безопасности. Несмотря на отсутствие реальных эмоций, ИИ демонстрирует удивительную восприимчивость к психологическим техникам манипулирования.

Источник: www.bloomberg.com

НОВОСТИ ПАРТНЕРОВ

БОЛЬШЕ НОВОСТЕЙ