Яндекс Метрика
Генерация изображений, Компьютерное зрение, Языковая модель, Мультимодальная модель

Janus-Pro-7B

DeepSeek
Генерация изображенийText-to-imageВизуальные ответы на вопросы

Janus-Pro-7B от DeepSeek — это универсальный мультимодальный ИИ, который одинаково мастерски понимает визуальный контент и генерирует изображения по тексту. Обновленная стратегия обучения и расширенный датасет позволяют модели точно следовать сложным инструкциям в режиме Text-to-Image.

In this work, we introduce Janus-Pro, an advanced version of the previous work Janus. Specifically, Janus-Pro incorporates (1) an optimized training strategy, (2) expanded training data, and (3) scaling to larger model size. With these improvements, Janus-Pro achieves significant advancements in both multimodal understanding and text-to-image instruction-following capabilities, while also enhancing the stability of text-to-image generation. We hope this work will inspire further exploration in the field. Code and models are publicly available.

Что такое Janus-Pro-7B?+
Кто разработал Janus-Pro-7B?+
Какие задачи решает Janus-Pro-7B?+