Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
Буква «о» в названии ChatGPT-4o не только мимикрирует под 40, но и имеет обозначение omni, то есть всеобъемлемость, или всеядность. CTO OpenAI Мира Мурати (Mira Murati) заявила, что ChatGPT-4o будет искусственным интеллектом уровня ChatGPT-4 для всех, даже пользователей без платной подписки.
На презентации ChatGPT-4o решил линейное уравнение, записанное на бумаге, а также дал советы по глубокому дыханию просто слушая звуки дыхания.
Предыдущие языковые модели ChatGpt-3.5 и ChatGPT-4 тоже в принципе могли общаться голосом, но для этого сначала голос переводился в текст, а затем обрабатывался. То есть, по сути, сначала одна нейронная сеть обрабатывала голос, потом другая — текст. Теперь же одна и та же нейросеть обрабатывает и звук и информацию, которую он несет. С таким подходом OpenAI пытается получить больше контекста из имеющегося материала, например, об эмоциональном состоянии собеседника. А еще это намного быстрее.