xAI представила Grok-1.5V — свою первую мультимодальную модель, которая теперь обрабатывает и изображения

0
53

xAI представляет Grok-1.5V, первую мультимодальную модель, которая также обрабатывает изображения

xAI

стартап Илона Маска xAI объявил о выпуске своей первой мультимодальной модели под названием Grok-1.5 Vision или Grok-1.5V. В отличие от предыдущих версий, эта модель может не только понимать текст, но и обрабатывать визуальный контент, такой как документы, диаграммы, графики, снимки экрана и фотографии.

Что известно

По данным XAI, Grok-1.5V конкурирует с современными мультимодальными моделями в различных областях, включая междисциплинарное мышление и понимание документов. Компания показала семь примеров, демонстрирующих возможности модели: от преобразования эскизов в код до создания сказок из детских рисунков.

xAI представляет Grok-1.5V, первую мультимодальную модель, которая также обрабатывает изображения

Сравнение производительности Grok-1,5V XAI и аналогичных моделей

При тестировании Grok-1.5V против таких конкурентов, как GPT-4V и Claude 3, компания xAI обнаружила, что ее мультимодальная модель превзошла новый тест RealWorldQA, который специально разработан для измерения понимания реального пространственного мира и, как утверждается, превосходит конкурирующие продукты.

xAI представляет Grok-1.5V, первую мультимодальную модель, которая также обрабатывает изображения

Результаты Grok-1.5V в тесте RealWorldQA

Выпуск Grok-1.5V последовал за открытием исходного кода чат-бота Grok, представленного xAI в ноябре 2023 года. Компания Илона Маска продолжает совершенствовать свои разработки в области искусственного интеллекта, чтобы конкурировать с такими лидерами рынка, как OpenAI. Однако ранее Грок сталкивался с проблемами, связанными с обучением пользователей занятиям незаконной деятельностью.

в ближайшие месяцы xAI обещает «значительные» обновления возможностей мультимодального понимания и генерации информации Grok AI.

Источник: VentureBeat

НОВОСТИ ПАРТНЕРОВ

БОЛЬШЕ НОВОСТЕЙ