Gemini Robotics-ER: пространственное мышление для роботов

Q: Кто разработал Gemini Robotics?

Модель Gemini Robotics разработана компанией Google DeepMind (United States of America).

Q: Какие задачи решает Gemini Robotics?

Следование инструкциям, Robotic manipulation, Распознавание речи, Object recognition, Детекция объектов

// задачи

Следование инструкциямRobotic manipulationРаспознавание речиObject recognitionДетекция объектов

// описание

Модель Gemini Robotics-ER специализируется на «воплощенном мышлении» (embodied reasoning), значительно улучшая понимание пространственных связей. Этот ИИ помогает роботам лучше ориентироваться в пространстве и легко интегрируется с существующими низкоуровневыми контроллерами оборудования.

// abstract

Gemini Robotics, an advanced vision-language-action (VLA) model that was built on Gemini 2.0 with the addition of physical actions as a new output modality for the purpose of directly controlling robots. Gemini Robotics is a state-of-the-art vision-language-action model enabling general-purpose robotic manipulation on different tasks, scenes, and across multiple robots. Input(s) The models take text (e.g., a question or prompt or numerical coordinates) and images (e.g., robot’s scene or environment) as input. Output(s) Gemini Robotics generates text about robot actions in response to the input.

// faq

Что такое Gemini Robotics?+

Кто разработал Gemini Robotics?+

Какие задачи решает Gemini Robotics?+

// похожие модели

π0.7 (pi-0.7)

Physical Intelligence