xAI
стартап Илона Маска xAI объявил о выпуске своей первой мультимодальной модели под названием Grok-1.5 Vision или Grok-1.5V. В отличие от предыдущих версий, эта модель может не только понимать текст, но и обрабатывать визуальный контент, такой как документы, диаграммы, графики, снимки экрана и фотографии.
Что известно
По данным XAI, Grok-1.5V конкурирует с современными мультимодальными моделями в различных областях, включая междисциплинарное мышление и понимание документов. Компания показала семь примеров, демонстрирующих возможности модели: от преобразования эскизов в код до создания сказок из детских рисунков.
Сравнение производительности Grok-1,5V XAI и аналогичных моделей
При тестировании Grok-1.5V против таких конкурентов, как GPT-4V и Claude 3, компания xAI обнаружила, что ее мультимодальная модель превзошла новый тест RealWorldQA, который специально разработан для измерения понимания реального пространственного мира и, как утверждается, превосходит конкурирующие продукты.
Результаты Grok-1.5V в тесте RealWorldQA
Выпуск Grok-1.5V последовал за открытием исходного кода чат-бота Grok, представленного xAI в ноябре 2023 года. Компания Илона Маска продолжает совершенствовать свои разработки в области искусственного интеллекта, чтобы конкурировать с такими лидерами рынка, как OpenAI. Однако ранее Грок сталкивался с проблемами, связанными с обучением пользователей занятиям незаконной деятельностью.
в ближайшие месяцы xAI обещает «значительные» обновления возможностей мультимодального понимания и генерации информации Grok AI.
Источник: VentureBeat