DD-PPO: децентрализованное обучение ИИ для роботов

Q: Кто разработал DD-PPO?

Модель DD-PPO разработана компанией Georgia Institute of Technology,Facebook AI Research,Oregon State University,Simon Fraser University (United States of America,United States of America,France,United States of America,Canada).

Q: Какие задачи решает DD-PPO?

Детекция объектов

// задачи

Детекция объектов

// описание

Децентрализованный алгоритм обучения с подкреплением, созданный для тренировки ИИ-агентов в ресурсоемких виртуальных средах. DD-PPO эффективно распределяет вычисления между множеством машин, позволяя роботам и автономным системам обучаться навигации в разы быстрее.

// abstract

We present Decentralized Distributed Proximal Policy Optimization (DD-PPO), a method for distributed reinforcement learning in resource-intensive simulated environments. DD-PPO is distributed (uses multiple machines), decentralized (lacks a centralized server), and synchronous (no computation is ever "stale"), making it conceptually simple and easy to implement. In our experiments on training virtual robots to navigate in Habitat-Sim, DD-PPO exhibits near-linear scaling -- achieving a speedup of 107x on 128 GPUs over a serial implementation. We leverage this scaling to train an agent for 2.5 Billion steps of experience (the equivalent of 80 years of human experience) -- over 6 months of GPU-time training in under 3 days of wall-clock time with 64 GPUs.

// faq

Что такое DD-PPO?+

Кто разработал DD-PPO?+

Какие задачи решает DD-PPO?+

// похожие модели

π0.7 (pi-0.7)

Physical Intelligence