Hunyuan-DiT: Генерация изображений от Tencent

Q: Кто разработал Hunyuan-DiT?

Модель Hunyuan-DiT разработана компанией Tencent (China).

Q: Какие задачи решает Hunyuan-DiT?

Генерация изображений, Text-to-image

// задачи

Генерация изображенийText-to-image

// описание

Hunyuan-DiT от Tencent представляет собой продвинутую диффузионную модель для генерации изображений с глубоким пониманием контекста. Благодаря архитектуре Transformer, нейросеть великолепно справляется со сложными промптами на английском и китайском языках, создавая детализированный визуальный контент.

// abstract

We present Hunyuan-DiT, a text-to-image diffusion transformer with fine-grained understanding of both English and Chinese. To construct Hunyuan-DiT, we carefully design the transformer structure, text encoder, and positional encoding. We also build from scratch a whole data pipeline to update and evaluate data for iterative model optimization. For fine-grained language understanding, we train a Multimodal Large Language Model to refine the captions of the images. Finally, Hunyuan-DiT can perform multi-turn multimodal dialogue with users, generating and refining images according to the context. Through our holistic human evaluation protocol with more than 50 professional human evaluators, Hunyuan-DiT sets a new state-of-the-art in Chinese-to-image generation compared with other open-source models. Code and pretrained models are publicly available at this http URL

// faq

Что такое Hunyuan-DiT?+

Кто разработал Hunyuan-DiT?+

Какие задачи решает Hunyuan-DiT?+

// похожие модели