ЛАИОН
Набор обучающих данных искусственного интеллекта LAION-5B содержит не менее 1679 ссылок на изображения сексуального насилия над детьми (CSAM).
Что известно
Исследователи из Стэнфордской интернет-обсерватории начали анализировать наборы данных LAION в сентябре 2023 года — они проверили хэши изображений с помощью специализированных платформ для идентификации CSAM. Аудит также провел Канадский центр защиты детей.
Судя по описанию на сайте, LAION — это индекс изображений из Интернета, а не репозиторий. Однако эксперты отмечают потенциальную опасность наличия в нем материала CSAM — модели ИИ, обученные на таких данных, могут научиться создавать вредоносный контент.
Исследователи рекомендовали прекратить использование моделей ИИ, обученных на LAION-5B. В частности, на этих данных была частично обучена модель Stable Diffusion компании Stability AI.
Google также использовал более раннюю версию LAION для Imagen, но позже отказался от этих данных.