Яндекс Метрика
Робототехника, Компьютерное зрение, Распознавание речи

Gemini Robotics

Google DeepMind
Следование инструкциямRobotic manipulationРаспознавание речиObject recognitionДетекция объектов

Модель Gemini Robotics-ER специализируется на «воплощенном мышлении» (embodied reasoning), значительно улучшая понимание пространственных связей. Этот ИИ помогает роботам лучше ориентироваться в пространстве и легко интегрируется с существующими низкоуровневыми контроллерами оборудования.

Gemini Robotics, an advanced vision-language-action (VLA) model that was built on Gemini 2.0 with the addition of physical actions as a new output modality for the purpose of directly controlling robots. Gemini Robotics is a state-of-the-art vision-language-action model enabling general-purpose robotic manipulation on different tasks, scenes, and across multiple robots. Input(s) The models take text (e.g., a question or prompt or numerical coordinates) and images (e.g., robot’s scene or environment) as input. Output(s) Gemini Robotics generates text about robot actions in response to the input.

Что такое Gemini Robotics?+
Кто разработал Gemini Robotics?+
Какие задачи решает Gemini Robotics?+