13 мая OpenAI анонсировала выход новой версии ChatGPT-4o, который по их словам «сделает взаимодействие между человеком и компьютером еще на шаг более естественным». Новая нейросеть воспринимает любую комбинацию текста, аудио и изображений и генерирует ответ также во всех этих форматах. Как утверждают представители компании, ИИ распознает эмоции, может прерывать на середине предложения и отвечает почти так же быстро, как человек.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
Буква «о» в названии ChatGPT-4o не только мимикрирует под 40, но и имеет обозначение omni, то есть всеобъемлемость, или всеядность. CTO OpenAI Мира Мурати (Mira Murati) заявила, что ChatGPT-4o будет искусственным интеллектом уровня ChatGPT-4 для всех, даже пользователей без платной подписки.
На презентации ChatGPT-4o решил линейное уравнение, записанное на бумаге, а также дал советы по глубокому дыханию просто слушая звуки дыхания.
Предыдущие языковые модели ChatGpt-3.5 и ChatGPT-4 тоже в принципе могли общаться голосом, но для этого сначала голос переводился в текст, а затем обрабатывался. То есть, по сути, сначала одна нейронная сеть обрабатывала голос, потом другая — текст. Теперь же одна и та же нейросеть обрабатывает и звук и информацию, которую он несет. С таким подходом OpenAI пытается получить больше контекста из имеющегося материала, например, об эмоциональном состоянии собеседника. А еще это намного быстрее.