Яндекс Метрика
Мультимодальная модель, Языковая модель, Компьютерное зрение

IDEFICS-9B

Hugging Face
Языковое моделированиеImage captioningВизуальные ответы на вопросы

Компактная версия мультимодальной модели IDEFICS-9B предлагает возможности продвинутого компьютерного зрения в более доступном формате. Этот ИИ эффективно обрабатывает комбинации картинок и текста, выступая открытым аналогом закрытых решений вроде Flamingo от DeepMind.

IDEFICS (Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS) is an open-access reproduction of Flamingo, a closed-source visual language model developed by Deepmind. Like GPT-4, the multimodal model accepts arbitrary sequences of image and text inputs and produces text outputs. IDEFICS is built solely on publicly available data and models. The model can answer questions about images, describe visual contents, create stories grounded on multiple images, or simply behave as a pure language model without visual inputs. IDEFICS is on par with the original closed-source model on various image-text benchmarks, including visual question answering (open-ended and multiple choice), image captioning, and image classification when evaluated with in-context few-shot learning. It comes into two variants: a large 80 billion parameters version and a 9 billion parameters version.

Что такое IDEFICS-9B?+
Кто разработал IDEFICS-9B?+
Какие задачи решает IDEFICS-9B?+