Модель Gemini Robotics-ER специализируется на «воплощенном мышлении» (embodied reasoning), значительно улучшая понимание пространственных связей. Этот ИИ помогает роботам лучше ориентироваться в пространстве и легко интегрируется с существующими низкоуровневыми контроллерами оборудования.
Gemini Robotics, an advanced vision-language-action (VLA) model that was built on Gemini 2.0 with the addition of physical actions as a new output modality for the purpose of directly controlling robots. Gemini Robotics is a state-of-the-art vision-language-action model enabling general-purpose robotic manipulation on different tasks, scenes, and across multiple robots. Input(s) The models take text (e.g., a question or prompt or numerical coordinates) and images (e.g., robot’s scene or environment) as input. Output(s) Gemini Robotics generates text about robot actions in response to the input.