Доминго Альварес E/Unsplash
Немецкие исследователи разработали модель машинного обучения, которая может распознавать эмоции в коротких аудиозаписях продолжительностью всего 1,5 секунды с человеческой точностью.
Что известно
В новом исследовании, опубликованном в журнале Frontiers in Psychology, исследователи сравнили три типа моделей: глубокие нейронные сети (DNN), сверточные нейронные сети (CNN) и гибридные модели (C-DNN).
Модель была обучена на немецких и канадских наборах данных с использованием бессмысленных предложений, произнесенных актерами с разными эмоциональными тонами, чтобы исключить влияние языка и значения на распознавание.
«Наша модель достигла человеческой точности в классификации эмоциональных предложений, произносимых актерами», — сказал ведущий автор Ханнес Димерлинг из Института развития человека Макса Планка).
Исследователи обнаружили, что DNN, которые объединяют аудио- и визуальные данные, а также гибридные C-DNN, работают лучше, чем CNN, которые используют только спектрограммы. В целом все модели превзошли случайное угадывание по точности распознавания эмоций.
По словам Марлинг, тот факт, что модели человека и искусственного интеллекта показали сопоставимые результаты, может означать, что они полагаются на схожие модели речи для обнаружения эмоциональных подтекстов.
Ученые заявили, что такая система может найти применение в областях, требующих интерпретации эмоций, таких как терапия и коммуникационные технологии. В то же время необходимы дальнейшие исследования оптимальной длины речевых фрагментов и анализ спонтанных эмоциональных проявлений.
Источник: TechXplore