Яндекс Метрика
Мультимодальная модель, Языковая модель, Компьютерное зрение

Ovis-7B

Alibaba,Nanjing University
Визуальные ответы на вопросыГенерация текстаОтветы на вопросы

Ovis-7B — это инновационная мультимодальная архитектура, которая выводит понимание визуального контента на новый уровень. Благодаря глубокому выравниванию текстовых и графических данных, эта ИИ-модель способна детально анализировать изображения и давать точные ответы на сложные вопросы.

We propose Ovis, a novel MLLM architecture designed to structurally align visual and textual embeddings. Ovis integrates an additional learnable visual embedding table into the visual encoder’s process. To capture rich visual semantics, each image patch indexes the visual embedding table multiple times, resulting in a final visual embedding that is a probabilistic combination of the indexed embeddings.

Что такое Ovis-7B?+
Кто разработал Ovis-7B?+
Какие задачи решает Ovis-7B?+