Машинное обучение предсказывает эмоции по голосу за 1,5 секунды с человеческой точностью

0
127

Машинное обучение предсказывает эмоции по звуку менее чем за 1,5 секунды с человеческой точностью

Доминго Альварес E/Unsplash

Немецкие исследователи разработали модель машинного обучения, которая может распознавать эмоции в коротких аудиозаписях продолжительностью всего 1,5 секунды с человеческой точностью.

Что известно

В новом исследовании, опубликованном в журнале Frontiers in Psychology, исследователи сравнили три типа моделей: глубокие нейронные сети (DNN), сверточные нейронные сети (CNN) и гибридные модели (C-DNN).

Модель была обучена на немецких и канадских наборах данных с использованием бессмысленных предложений, произнесенных актерами с разными эмоциональными тонами, чтобы исключить влияние языка и значения на распознавание.

«Наша модель достигла человеческой точности в классификации эмоциональных предложений, произносимых актерами», — сказал ведущий автор Ханнес Димерлинг из Института развития человека Макса Планка).

Исследователи обнаружили, что DNN, которые объединяют аудио- и визуальные данные, а также гибридные C-DNN, работают лучше, чем CNN, которые используют только спектрограммы. В целом все модели превзошли случайное угадывание по точности распознавания эмоций.

По словам Марлинг, тот факт, что модели человека и искусственного интеллекта показали сопоставимые результаты, может означать, что они полагаются на схожие модели речи для обнаружения эмоциональных подтекстов.

Ученые заявили, что такая система может найти применение в областях, требующих интерпретации эмоций, таких как терапия и коммуникационные технологии. В то же время необходимы дальнейшие исследования оптимальной длины речевых фрагментов и анализ спонтанных эмоциональных проявлений.

Источник: TechXplore

НОВОСТИ ПАРТНЕРОВ

БОЛЬШЕ НОВОСТЕЙ