Яндекс Метрика
cs.LG, cs.AI, cs.MA

Опции как ответы: Обоснование поведенческих иерахий в многоагентном обучении с подкреплением

Alexander Sasha Vezhnevets, Yuhuai Wu, Remi Leblond, Joel Z. Leibo04.06.2019

В данной работе исследуется способность к обобщению в многоагентных играх, где эффективность агента оценивается в противостоянии с незнакомыми оппонентами. Авторы предлагают две новые игры со скрытой информацией и сложной нетранзитивной структурой вознаграждений (по принципу «камень-ножницы-бумага»). Установлено, что большинство современных методов глубокого обучения с подкреплением неэффективно исследуют пространство стратегий, что приводит к плохой адаптации к новым противникам. Предложенный подход позволяет формировать иерархические структуры поведения для более гибкого реагирования на действия оппонентов.

Исследование посвящено проблеме обобщения в многопользовательских играх, где агенты должны эффективно противостоять незнакомым противникам. Авторы представили две новые среды со скрытой информацией и сложной структурой вознаграждений, в которых классические методы обучения с подкреплением часто терпят неудачу. Работа предлагает новый подход к иерархическому обучению, позволяющий ИИ гибко адаптировать свои стратегии под непредсказуемое поведение оппонентов.

Alexander Sasha Vezhnevets, Yuhuai Wu, Remi Leblond, Joel Z. Leibo