Emu3 — это прорывная мультимодальная модель от BAAI, которая обучается на текстах, фото и видео через единый механизм предсказания следующего токена. Этот универсальный ИИ превосходит узкоспециализированные решения как в генерации контента, так и в его глубоком понимании.
In this paper, we introduce Emu3, a new suite of state-of-the-art multimodal models trained solely with next-token prediction. By tokenizing images, text, and videos into a discrete space, we train a single transformer from scratch on a mixture of multimodal sequences. Emu3 outperforms several well-established task-specific models in both generation and perception tasks, surpassing flagship models such as SDXL and LLaVA-1.6, while eliminating the need for diffusion or compositional architectures. Emu3 is also capable of generating high-fidelity video via predicting the next token in a video sequence.