Яндекс Метрика
Видео, Мультимодальная модель, Генерация изображений, Компьютерное зрение, Языковая модель, Распознавание речи

Emu3.5

Beijing Academy of Artificial Intelligence / BAAI
Text-to-videoImage-to-videoГенерация изображенийText-to-imageВизуальные ответы на вопросыГенерация текстаОтветы на вопросыРаспознавание речиОписание видео

Emu3.5 от BAAI — это мультимодальная ИИ-модель мирового уровня, которая одинаково хорошо работает с текстом, видео и изображениями. Обученная на 10 триллионах токенов, она предсказывает следующий кадр или слово, обеспечивая бесшовную генерацию контента и понимание визуальных данных.

We introduce Emu3.5, a large-scale multimodal world model that natively predicts the next state across vision and language. Emu3.5 is pre-trained end-to-end with a unified next-token prediction objective on a corpus of vision-language interleaved data containing over 10 trillion tokens, primarily derived from sequential frames and transcripts of internet videos. The model naturally accepts interleaved vision-language inputs and generates interleaved vision-language outputs. Emu3.5 is further post-trained with large-scale reinforcement learning to enhance multimodal reasoning and generation. To improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA), which converts token-by-token decoding into bidirectional parallel prediction, accelerating per-image inference by about 20× without sacrificing performance. Emu3.5 exhibits strong native multimodal capabilities, including long-horizon vision-language generation, any-to-image (X2I) generation, and complex text-rich image generation. It also exhibits generalizable world-modeling abilities, enabling spatiotemporally consistent world exploration and open-world embodied manipulation across diverse scenarios and tasks. For comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image (Nano Banana) on image generation and editing tasks and demonstrates superior results on a suite of interleaved generation tasks. We open-source Emu3.5 at https://github.com/baaivision/Emu3.5 to support community research.

Что такое Emu3.5?+
Кто разработал Emu3.5?+
Какие задачи решает Emu3.5?+