IDEFICS-9B: Описание и функции визуальной нейросети

Q: Кто разработал IDEFICS-9B?

Модель IDEFICS-9B разработана компанией Hugging Face (United States of America).

Q: Какие задачи решает IDEFICS-9B?

Языковое моделирование, Image captioning, Визуальные ответы на вопросы

// задачи

Языковое моделированиеImage captioningВизуальные ответы на вопросы

// описание

Компактная версия мультимодальной модели IDEFICS-9B предлагает возможности продвинутого компьютерного зрения в более доступном формате. Этот ИИ эффективно обрабатывает комбинации картинок и текста, выступая открытым аналогом закрытых решений вроде Flamingo от DeepMind.

// abstract

IDEFICS (Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS) is an open-access reproduction of Flamingo, a closed-source visual language model developed by Deepmind. Like GPT-4, the multimodal model accepts arbitrary sequences of image and text inputs and produces text outputs. IDEFICS is built solely on publicly available data and models. The model can answer questions about images, describe visual contents, create stories grounded on multiple images, or simply behave as a pure language model without visual inputs. IDEFICS is on par with the original closed-source model on various image-text benchmarks, including visual question answering (open-ended and multiple choice), image captioning, and image classification when evaluated with in-context few-shot learning. It comes into two variants: a large 80 billion parameters version and a 9 billion parameters version.

// faq

Что такое IDEFICS-9B?+

Кто разработал IDEFICS-9B?+

Какие задачи решает IDEFICS-9B?+

// похожие модели