GPT-5: мультимодальный ИИ от OpenAI — обзор возможностей

@ tokenburn# 14.02.2026~ 4 мин / Модели

источник: OpenAI Blog

gpt-5модели

Новая модель способна обрабатывать видео, аудио и текст одновременно с задержкой менее 200мс.

OpenAI официально представила GPT-5 — свою самую продвинутую модель, способную обрабатывать видео, аудио и текстовый ввод в реальном времени с задержкой менее 200 миллисекунд.

Новая модель демонстрирует значительный прорыв в мультимодальном понимании. GPT-5 может анализировать видеопоток с камеры, одновременно обрабатывая голосовые команды и текстовые инструкции.

По словам Сэма Альтмана, GPT-5 обучена на данных, включающих более 100 триллионов токенов из мультимодальных источников. Архитектура модели была полностью переработана для обеспечения нативной мультимодальности.

Модель уже доступна через API для разработчиков с подпиской Plus и Team.

> ИИ генерирует фотореалистичные видео длиной до 5 минут > Новый чип от NVIDIA для inference > Anthropic запустила Claude Opus 4.6 с улучшенным reasoning > Робот на базе ИИ от Figure научился готовить кофе

OpenAI представила GPT-5 с мультимодальным вводом в реальном времени