xGen-MM (BLIP-3): Мультимодальная ИИ-модель от Salesforce

Q: Кто разработал xGen-MM (BLIP-3)?

Модель xGen-MM (BLIP-3) разработана компанией Salesforce Research,University of Washington (United States of America,United States of America).

Q: Какие задачи решает xGen-MM (BLIP-3)?

Image captioning, Character recognition (OCR), Визуальные ответы на вопросы, Чат-бот

// задачи

Image captioningCharacter recognition (OCR)Визуальные ответы на вопросыЧат-бот

// описание

Мультимодальный ИИ-фреймворк xGen-MM (известный как BLIP-3) задает новые стандарты в анализе визуального контента и распознавании текста (OCR). Модель эффективно работает в режиме чат-бота, отвечая на вопросы по изображениям и создавая точные описания к ним.

// abstract

This report introduces xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs). The framework comprises meticulously curated datasets, a training recipe, model architectures, and a resulting suite of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen initiative on foundation AI models. Our models undergo rigorous evaluation across a range of tasks, including both single and multi-image benchmarks. Our pre-trained base model exhibits strong in-context learning capabilities and the instruction-tuned model demonstrates competitive performance among open-source LMMs with similar model sizes. In addition, we introduce a safety-tuned model with DPO, aiming to mitigate harmful behaviors such as hallucinations and improve safety. We open-source our models, curated large-scale datasets, and our fine-tuning codebase to facilitate further advancements in LMM research. Associated resources will be available on our project page above.

// faq

Что такое xGen-MM (BLIP-3)?+

Кто разработал xGen-MM (BLIP-3)?+

Какие задачи решает xGen-MM (BLIP-3)?+

// похожие модели