Джиюэ/Unsplash
Исследователи Apple создали новый искусственный интеллект MM1, который может интерпретировать как изображения, так и текстовые данные. Компания опубликовала на arXiv статью с описанием своего семейства мультимодальных моделей (MLLM) и результатов его испытаний.
Что известно
По словам разработчиков, семейство мультимодальных моделей ММ1 добилось больших успехов в задачах субтитров изображений, ответов на визуальные вопросы и создания поисковых запросов за счет интеграции текстовых и графических данных. Некоторые из них содержат до 30 миллиардов параметров.
Модель использует набор данных, состоящий из изображений с подписями, документов с изображениями и чистого текста. Исследователи утверждают, что MM1 может считать объекты, идентифицировать их на фотографиях и использовать «здравый смысл», чтобы предоставлять пользователям полезную информацию.
Кроме того, MLLM может использовать знания из текущих разговоров для контекстного обучения, а не начинать каждый раз с нуля. Например, если вы загружаете изображение меню, модель может рассчитать стоимость напитков группы на основе указанных цен.
Широкомасштабные языковые модели (LLM) получили широкую огласку, но Apple решила не использовать сторонние разработки и вместо этого сосредоточиться на создании собственных LLM следующего поколения с мультимодальными возможностями.
Мультимодальный ИИ интегрирует и обрабатывает различные типы входных данных, включая визуальную, аудио и текстовую информацию. Это позволяет системе лучше понимать сложные данные и обеспечивать более точную и контекстную интерпретацию, чем унимодальные модели.
Источник: TechXplore