Emu3: Универсальная мультимодальная AI-модель от BAAI

Q: Кто разработал Emu3?

Модель Emu3 разработана компанией Beijing Academy of Artificial Intelligence / BAAI (China).

Q: Какие задачи решает Emu3?

Генерация видео, Text-to-video, Image-to-video, Video-to-video, Генерация изображений, Text-to-image, Визуальные ответы на вопросы, Генерация текста, Ответы на вопросы

// задачи

Генерация видеоText-to-videoImage-to-videoVideo-to-videoГенерация изображенийText-to-imageВизуальные ответы на вопросыГенерация текстаОтветы на вопросы

// описание

Emu3 — это прорывная мультимодальная модель от BAAI, которая обучается на текстах, фото и видео через единый механизм предсказания следующего токена. Этот универсальный ИИ превосходит узкоспециализированные решения как в генерации контента, так и в его глубоком понимании.

// abstract

In this paper, we introduce Emu3, a new suite of state-of-the-art multimodal models trained solely with next-token prediction. By tokenizing images, text, and videos into a discrete space, we train a single transformer from scratch on a mixture of multimodal sequences. Emu3 outperforms several well-established task-specific models in both generation and perception tasks, surpassing flagship models such as SDXL and LLaVA-1.6, while eliminating the need for diffusion or compositional architectures. Emu3 is also capable of generating high-fidelity video via predicting the next token in a video sequence.

// faq

Что такое Emu3?+

Кто разработал Emu3?+

Какие задачи решает Emu3?+

// похожие модели

Beijing Academy of Artificial Intelligence / BAAI

34.1B