В данной работе исследуется способность к обобщению в многоагентных играх, где эффективность агента оценивается в противостоянии с незнакомыми оппонентами. Авторы предлагают две новые игры со скрытой информацией и сложной нетранзитивной структурой вознаграждений (по принципу «камень-ножницы-бумага»). Установлено, что большинство современных методов глубокого обучения с подкреплением неэффективно исследуют пространство стратегий, что приводит к плохой адаптации к новым противникам. Предложенный подход позволяет формировать иерархические структуры поведения для более гибкого реагирования на действия оппонентов.
Исследование посвящено проблеме обобщения в многопользовательских играх, где агенты должны эффективно противостоять незнакомым противникам. Авторы представили две новые среды со скрытой информацией и сложной структурой вознаграждений, в которых классические методы обучения с подкреплением часто терпят неудачу. Работа предлагает новый подход к иерархическому обучению, позволяющий ИИ гибко адаптировать свои стратегии под непредсказуемое поведение оппонентов.