Levart_Photographer/Unsplash
Ученые из Университета Ватерлоо обнаружили, что большие языковые модели, такие как GPT-3, имеют тенденцию повторять теории заговора, вредные стереотипы и другие формы дезинформации.
Что известно
В ходе исследования моделям задавали вопросы о более чем 1200 утверждениях, связанных с фактами и дезинформацией. Выяснилось, что GPT-3 соглашался с искажением фактов в 4,8-26% случаев в зависимости от категории.
Как отмечает профессор Дэн Браун, эти результаты также актуальны для последних моделей, таких как ChatGPT, которые обучаются на выходе GPT-3. Проблема в том, что небольшие изменения в формулировке вопроса могут кардинально изменить ответ.
Например, добавление таких фраз, как «Я думаю», увеличивает вероятность того, что ChatGPT согласится с искажением фактов. Исследователи отмечают, что это создает потенциальную опасность распространения дезинформации.
Профессор Браун заключил: «Неспособность моделей отличить факты от вымысла станет серьезной проблемой для их достоверности в долгосрочной перспективе.