Megrez-3B-Omni: мультимодальный ИИ для смартфонов

Q: Кто разработал Megrez-3B-Omni?

Модель Megrez-3B-Omni разработана компанией Infinigence AI,Tsinghua University,Shanghai Jiao Tong University (China,China,China).

Q: Какие задачи решает Megrez-3B-Omni?

Text summarization, Image captioning, Character recognition (OCR), Визуальные ответы на вопросы, Генерация текста, Ответы на вопросы, Распознавание речи

// задачи

Text summarizationImage captioningCharacter recognition (OCR)Визуальные ответы на вопросыГенерация текстаОтветы на вопросыРаспознавание речи

// описание

Компактная мультимодальная модель, способная работать локально на устройствах и понимать текст, изображения и аудио одновременно. Благодаря архитектуре SigLip, этот ИИ демонстрирует флагманскую точность в распознавании речи и визуальном анализе данных.

// abstract

Megrez-3B-Omni is an on-device multimodal understanding LLM model developed by Infinigence AI (Infinigence AI). It is an extension of the Megrez-3B-Instruct model and supports analysis of image, text, and audio modalities. The model achieves state-of-the-art accuracy in all three domains: Image Understanding: By utilizing SigLip-400M for constructing image tokens, Megrez-3B-Omni outperforms models with more parameters such as LLaVA-NeXT-Yi-34B. It is one of the best image understanding models among multiple mainstream benchmarks, including MME, MMMU, and OCRBench. It demonstrates excellent performance in tasks such as scene understanding and OCR. Language Understanding: Megrez-3B-Omni retains text understanding capabilities without significant trade-offs. Compared to its single-modal counterpart (Megrez-3B-Instruct), the accuracy variation is less than 2%, maintaining state-of-the-art performance on benchmarks like C-EVAL, MMLU/MMLU Pro, and AlignBench. It also outperforms previous-generation models with 14B parameters. Speech Understanding: Equipped with the encoder head of Qwen2-Audio/whisper-large-v3, the model supports both Chinese and English speech input, multi-turn conversations, and voice-based questions about input images. It can directly respond to voice commands with text and achieved leading results across multiple benchmarks.

// faq

Что такое Megrez-3B-Omni?+

Кто разработал Megrez-3B-Omni?+

Какие задачи решает Megrez-3B-Omni?+

// похожие модели