CogVideo: Генерация видео по тексту от Tsinghua и BAAI

Q: Кто разработал CogVideo?

Модель CogVideo разработана компанией Tsinghua University,Beijing Academy of Artificial Intelligence / BAAI (China,China).

Q: Какие задачи решает CogVideo?

Генерация видео, Text-to-video

// задачи

Генерация видеоText-to-video

// описание

CogVideo — это масштабная нейросеть от китайских разработчиков, которая переносит успех архитектуры трансформеров в сферу генерации видео. Модель эффективно решает проблему высокой вычислительной сложности и нехватки данных, создавая качественные ролики по текстовому описанию. Это важный прорыв в области Text-to-Video AI, открывающий новые возможности для контент-мейкеров.

// abstract

Large-scale pretrained transformers have created milestones in text (GPT-3) and text-to-image (DALL-E and CogView) generation. Its application to video generation is still facing many challenges: The potential huge computation cost makes the training from scratch unaffordable; The scarcity and weak relevance of text-video datasets hinder the model understanding complex movement semantics. In this work, we present 9B-parameter transformer CogVideo, trained by inheriting a pretrained text-to-image model, CogView2. We also propose multi-frame-rate hierarchical training strategy to better align text and video clips. As (probably) the first open-source large-scale pretrained text-to-video model, CogVideo outperforms all publicly available models at a large margin in machine and human evaluations.

// faq

Что такое CogVideo?+

Кто разработал CogVideo?+

Какие задачи решает CogVideo?+

// похожие модели

Beijing Academy of Artificial Intelligence / BAAI

34.1B