OpenAI обучала GPT-4 на расшифрованных видео с YouTube — NYT

0
279

Обучение GPT-4 с помощью видеороликов YouTube, расшифрованных OpenAI – NYT

Глоутика/Unsplash

OpenAI использовала алгоритм транскрипции текста Whisper для расшифровки более 1 миллиона часов видео YouTube для обучения своей последней языковой модели GPT-4.

Что известно

По данным New York Times, в 2021 году у OpenAI закончились качественные данные по обучению. Чтобы решить эту проблему, компания разработала собственную модель Whisper, которая специализируется на расшифровке видео, подкастов и аудиокниг.

The Times утверждает, что президент OpenAI Грег Брокман лично участвовал в сборе видео с YouTube.

Представитель компании заявил, что она использует различные источники данных, включая общедоступные данные и данные, полученные в результате партнерских отношений. 

Google, владелец YouTube, заявил, что условия обслуживания ее платформы запрещают несанкционированный сбор и загрузку контента. Представители технологического гиганта заявляют, что компания приняла технические и юридические меры для предотвращения несанкционированного использования таких данных.

Между тем, Google также использует некоторый контент YouTube для обучения своего ИИ. Однако в компании подчеркнули, что это будет делаться по отдельным соглашениям с каждым создателем контента, чьи видео будут задействованы в этом процессе.

В документе сообщается, что Meta сталкивается с аналогичными проблемами с доступностью данных для обучения своих систем искусственного интеллекта. Сообщается, что компания рассмотрела возможность незаконного использования материала, защищенного авторским правом.

Источник: Нью-Йорк Таймс, The Verge

НОВОСТИ ПАРТНЕРОВ

БОЛЬШЕ НОВОСТЕЙ