Stability AI выпустила модель преобразования текста в изображение Stable Diffusion XL 1.0, которую она называет «самой продвинутой» версией на сегодняшний день.
Что известно
Глава отдела прикладного машинного обучения Stability AI Джо Пенна сказал, что Stable Diffusion XL 1.0 содержит 3,5 миллиарда параметров. Модель может создавать изображения с полным разрешением 1 МП «за секунды» с несколькими соотношениями сторон.
По словам создателей, алгоритм обеспечивает более «яркие» и «точные» цвета, а также лучшую контрастность, тени и освещение по сравнению с предшественником.
Stable Diffusion XL 1.0 поддерживает затенение, перекрашивание и подсказки между изображениями. Это означает, что пользователи могут вводить в модель изображение и редактировать его.
Согласно Stability AI, модель понимает сложные многочастные инструкции, данные в коротких вопросах. Более ранние модели требовали более длинных текстовых сообщений.
Разработчики также научили Stable Diffusion XL 1.0 генерировать четкие и читаемые тексты.
Стабильность ИИ признал, что модель может генерировать токсичный и предвзятый контент. Однако разработчики постарались настроить его таким образом, чтобы уменьшить вероятность генерации таких изображений.
Stable Diffusion XL 1.0 распространяется с открытым исходным кодом на GitHub в дополнение к Stability API и потребительским приложениям, таким как ClipDrop и DreamStudio.