Options as responses: Grounding behavioural hierar

// abstract

В данной работе исследуется способность к обобщению в многоагентных играх, где эффективность агента оценивается в противостоянии с незнакомыми оппонентами. Авторы предлагают две новые игры со скрытой информацией и сложной нетранзитивной структурой вознаграждений (по принципу «камень-ножницы-бумага»). Установлено, что большинство современных методов глубокого обучения с подкреплением неэффективно исследуют пространство стратегий, что приводит к плохой адаптации к новым противникам. Предложенный подход позволяет формировать иерархические структуры поведения для более гибкого реагирования на действия оппонентов.

// описание

Исследование посвящено проблеме обобщения в многопользовательских играх, где агенты должны эффективно противостоять незнакомым противникам. Авторы представили две новые среды со скрытой информацией и сложной структурой вознаграждений, в которых классические методы обучения с подкреплением часто терпят неудачу. Работа предлагает новый подход к иерархическому обучению, позволяющий ИИ гибко адаптировать свои стратегии под непредсказуемое поведение оппонентов.

// авторы

Alexander Sasha Vezhnevets, Yuhuai Wu, Remi Leblond, Joel Z. Leibo

← все исследования

Опции как ответы: Обоснование поведенческих иерахий в многоагентном обучении с подкреплением