Google анонсировала новую модель PaliGemma 2 для обработки изображений и текста

0
9

Google анонсировала новую модель PaliGemma 2 для обработки изображений и текста

PaliGemma 2. Источник: 9to5Google

После анонса Gemma 2 на I/O 2024 в мае, Google представляет новую версию модели PaliGemma 2 — открытую модель для обработки изображений и текста.

Что известно

Первая версия PaliGemma была запущена в мае и использовалась для таких задач, как добавление подписей к изображениям и видео, распознавание текста на изображениях, обнаружение объектов, их разделение на части и ответы на вопросы относительно визуального контента.

PaliGemma 2 предлагает функцию «длинных подписей», которая позволяет генерировать подробные описания изображений, учитывая действия, эмоции и общую атмосферу сцены. Модель доступна в нескольких вариантах с размерами 3B, 10B, 28B параметров и различными разрешениями.

Также улучшено распознавание текста и анализ структуры таблиц в документах. PaliGemma 2 показывает отличные результаты в распознавании химических формул, музыкальных партитур, пространственном мышлении и создании отчетов на основе рентгеновских снимков.

Google отмечает, что PaliGemma 2 можно легко заменить на предыдущую версию модели, при этом производительность улучшается без необходимости больших изменений в коде.

Модели и код PaliGemma 2 уже доступны на платформах Kaggle, Hugging Face и Ollama.

Источник: 9to5Google

НОВОСТИ ПАРТНЕРОВ

БОЛЬШЕ НОВОСТЕЙ