Индустрия генеративного видео переживает свой «момент GPT-4». Если прошлый год прошел под знаком коротких и часто нестабильных роликов, то конец 2025 года ознаменовался выходом моделей, способных генерировать гиперреалистичные сцены с глубоким пониманием физики. Главным игроком остается Sora 2.0 от OpenAI, релиз которой в сентябре 2025 года подтвердил амбиции компании на лидерство в сегменте профессионального кинопроизводства. Sora больше не просто «рисует» кадры, эта нейросеть выстраивает трехмерную логику пространства.

Китайский прорыв и мультимодальность Emu3.5

Серьезную конкуренцию западным разработкам составила Beijing Academy of Artificial Intelligence (BAAI). Их новая модель Emu3.5, представленная в октябре 2025 года, поражает масштабом: 34,1 миллиарда параметров. Это полноценная мультимодальная система, которая объединяет в себе возможности компьютерного зрения, распознавания речи и генерации видео. Благодаря такому объему данных, Emu3.5 демонстрирует беспрецедентный уровень детализации, который ранее считался недостижимым для открытых исследовательских институтов.

Технологические гиганты: Google Veo и NVIDIA Cosmos

Google DeepMind не отстает, выпустив в октябре Veo 3.1. Эта модель интегрирована в экосистему Gemini и ориентирована на креативные агентства. Однако наиболее интересный подход продемонстрировала NVIDIA с линейкой Cosmos. Их модели разделены по специализациям:

  • Cosmos-Predict2.5 (14B) — сфокусирована на предсказании движения и физической точности.
  • Cosmos-Transfer2.5 (2B) — компактная модель для стилизации и переноса визуальных атрибутов.
  • Wan 2.5 — решение от Alibaba, которое активно борется за сегмент эффективного компьютерного зрения.

Локальные игроки и доступность ИИ

Отечественный искусственный интеллект также показывает уверенный рост. Сбер представил Kandinsky 5.0 Video Lite. Обладая 2 миллиардами параметров, эта модель оптимизирована для быстрой работы, позволяя генерировать качественный видеоконтент без использования огромных вычислительных мощностей. Это делает технологию доступной для малого бизнеса и индивидуальных контент-мейкеров.

Несмотря на впечатляющие успехи, AI-видеогенерация все еще сталкивается с ограничениями. Основные проблемы — это консистентность персонажей в длинных сценах и высокая стоимость генерации одного кадра. Тем не менее, такие инструменты как Grok Imagine от xAI и Gemini 2.5 Computer Use показывают, что видеогенерация становится частью более широкого процесса взаимодействия человека и компьютера, где нейросеть не просто создает картинку, а понимает контекст задачи пользователя.

Будущее видеопроизводства

Мы в TokenBurn считаем, что 2025 год станет переломным для традиционного продакшена. С появлением моделей вроде Sora 2.0 и мощных инструментов от NVIDIA, грань между реально снятым видео и генеративным контентом окончательно стирается. Вопрос лишь в том, как быстро индустрия адаптируется к новым правилам игры, где главным навыком становится не владение камерой, а умение управлять сложными мультимодальными системами.