Смартфоны Google анонсировала новую модель PaliGemma 2 для обработки изображений и текста От Денис Курапов - 06.12.2024 0 10 PaliGemma 2. Источник: 9to5Google После анонса Gemma 2 на I/O 2024 в мае, Google представляет новую версию модели PaliGemma 2 — открытую модель для обработки изображений и текста. Что известно Первая версия PaliGemma была запущена в мае и использовалась для таких задач, как добавление подписей к изображениям и видео, распознавание текста на изображениях, обнаружение объектов, их разделение на части и ответы на вопросы относительно визуального контента. PaliGemma 2 предлагает функцию «длинных подписей», которая позволяет генерировать подробные описания изображений, учитывая действия, эмоции и общую атмосферу сцены. Модель доступна в нескольких вариантах с размерами 3B, 10B, 28B параметров и различными разрешениями. Также улучшено распознавание текста и анализ структуры таблиц в документах. PaliGemma 2 показывает отличные результаты в распознавании химических формул, музыкальных партитур, пространственном мышлении и создании отчетов на основе рентгеновских снимков. Google отмечает, что PaliGemma 2 можно легко заменить на предыдущую версию модели, при этом производительность улучшается без необходимости больших изменений в коде. Модели и код PaliGemma 2 уже доступны на платформах Kaggle, Hugging Face и Ollama. Источник: 9to5Google