Новая модель способна обрабатывать видео, аудио и текст одновременно с задержкой менее 200мс.
OpenAI официально представила GPT-5 — свою самую продвинутую модель, способную обрабатывать видео, аудио и текстовый ввод в реальном времени с задержкой менее 200 миллисекунд.
Новая модель демонстрирует значительный прорыв в мультимодальном понимании. GPT-5 может анализировать видеопоток с камеры, одновременно обрабатывая голосовые команды и текстовые инструкции.
По словам Сэма Альтмана, GPT-5 обучена на данных, включающих более 100 триллионов токенов из мультимодальных источников. Архитектура модели была полностью переработана для обеспечения нативной мультимодальности.
Модель уже доступна через API для разработчиков с подпиской Plus и Team.