Яндекс Метрика
Компьютерное зрение, Языковая модель, Видео

MiniCPM-V 2.6

OpenBMB (Open Lab for Big Model Base)
Визуальные ответы на вопросыГенерация текстаImage captioningCharacter recognition (OCR)Описание видео

MiniCPM-V 2.6 — это компактный, но мощный мультимодальный ИИ, который обходит GPT-4V в анализе изображений и видео. Модель на 8B параметров отлично справляется с OCR-задачами и пониманием контекста, предлагая возможности флагманских нейросетей.

The latest and most capable model in the MiniCPM-V series. With a total of 8B parameters, the model surpasses GPT-4V in single image, multi-image and video understanding. It outperforms GPT-4o mini, Gemini 1.5 Pro and Claude 3.5 Sonnet in single image understanding, and advances MiniCPM-Llama3-V 2.5's features such as strong OCR capability, trustworthy behavior, multilingual support, and end-side deployment. Due to its superior token density, MiniCPM-V 2.6 can for the first time support real-time video understanding on end-side devices such as iPad.

Что такое MiniCPM-V 2.6?+
Кто разработал MiniCPM-V 2.6?+
Какие задачи решает MiniCPM-V 2.6?+