
Глоутика/Unsplash
OpenAI использовала алгоритм транскрипции текста Whisper для расшифровки более 1 миллиона часов видео YouTube для обучения своей последней языковой модели GPT-4.
Что известно
По данным New York Times, в 2021 году у OpenAI закончились качественные данные по обучению. Чтобы решить эту проблему, компания разработала собственную модель Whisper, которая специализируется на расшифровке видео, подкастов и аудиокниг.
The Times утверждает, что президент OpenAI Грег Брокман лично участвовал в сборе видео с YouTube.
Представитель компании заявил, что она использует различные источники данных, включая общедоступные данные и данные, полученные в результате партнерских отношений.
Google, владелец YouTube, заявил, что условия обслуживания ее платформы запрещают несанкционированный сбор и загрузку контента. Представители технологического гиганта заявляют, что компания приняла технические и юридические меры для предотвращения несанкционированного использования таких данных.
Между тем, Google также использует некоторый контент YouTube для обучения своего ИИ. Однако в компании подчеркнули, что это будет делаться по отдельным соглашениям с каждым создателем контента, чьи видео будут задействованы в этом процессе.
В документе сообщается, что Meta сталкивается с аналогичными проблемами с доступностью данных для обучения своих систем искусственного интеллекта. Сообщается, что компания рассмотрела возможность незаконного использования материала, защищенного авторским правом.
Источник: Нью-Йорк Таймс, The Verge