W.A.L.T: Нейросеть для генерации реалистичного видео

Q: Кто разработал W.A.L.T?

Модель W.A.L.T разработана компанией Stanford University,Google Research,Georgia Institute of Technology (United States of America,United States of America,United States of America).

Q: Какие задачи решает W.A.L.T?

Генерация видео, Text-to-video

// задачи

Генерация видеоText-to-video

// описание

W.A.L.T — это передовой ИИ-метод генерации фотореалистичных видео на основе архитектуры трансформеров. Благодаря обучению в едином латентном пространстве для изображений и роликов, нейросеть создает невероятно плавный и визуально богатый контент. Модель устанавливает новый стандарт в области Text-to-video генерации.

// abstract

We present W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. Our approach has two key design decisions. First, we use a causal encoder to jointly compress images and videos within a unified latent space, enabling training and generation across modalities. Second, for memory and training efficiency, we use a window attention architecture tailored for joint spatial and spatiotemporal generative modeling. Taken together these design decisions enable us to achieve state-of-the-art performance on established video (UCF-101 and Kinetics-600) and image (ImageNet) generation benchmarks without using classifier free guidance. Finally, we also train a cascade of three models for the task of text-to-video generation consisting of a base latent video diffusion model, and two video super-resolution diffusion models to generate videos of resolution at frames per second.

// faq

Что такое W.A.L.T?+

Кто разработал W.A.L.T?+

Какие задачи решает W.A.L.T?+

// похожие модели

Beijing Academy of Artificial Intelligence / BAAI

34.1B