Palmyra Vision: Мультимодальный ИИ для анализа графиков

Q: Кто разработал Palmyra Vision?

Модель Palmyra Vision разработана компанией Writer (United States of America).

Q: Какие задачи решает Palmyra Vision?

Визуальные ответы на вопросы, Описание видео, Image captioning, Character recognition (OCR), Language generation

// задачи

Визуальные ответы на вопросыОписание видеоImage captioningCharacter recognition (OCR)Language generation

// описание

Мультимодальная модель Palmyra Vision мастерски объединяет зрение и текст, легко справляясь с анализом графиков и распознаванием рукописного ввода. Этот AI-инструмент показывает впечатляющие результаты в визуальных ответах на вопросы, обходя многие популярные аналоги.

// abstract

Palmyra Vision is a multimodal large language model (LLM) with vision capabilities developed by Writer that can analyze and generate text based on images. It excels in tasks such as extracting handwritten text, classifying objects, analyzing graphs and charts, and answering specific questions based on visual inputs. Palmyra Vision achieved a score of 84.4% on VQAv2 benchmark, outperforming other prominent multimodal models. Palmyra Vision offers a range of practical applications in the enterprise, including product description generation, interpreting charts and graphs, compliance detection, improving accessibility by creating ALT descriptions, and text extraction from handwritten reports.

// faq

Что такое Palmyra Vision?+

Кто разработал Palmyra Vision?+

Какие задачи решает Palmyra Vision?+

// похожие модели