В статье исследуется эффективность состязательного обучения для повышения устойчивости агентов Deep Q-Network (DQN) к возмущениям в пространстве состояний. Авторы проводят формальный анализ состязательного обучения и оценивают его производительность в зависимости от доли искаженных данных, используемых при обучении. Для решения проблемы низкой эффективности использования данных в существующих методах предлагается новый механизм — состязательно-направляемое исследование (AGE).
Работа посвящена защите ИИ-агентов (DQN) от атак, которые пытаются запутать алгоритм через искажение входных данных. Авторы представляют метод AGE, который значительно повышает устойчивость нейросетей к внешним помехам и оптимизирует процесс обучения. Предложенное решение делает системы обучения с подкреплением более надежными для использования в реальных, непредсказуемых условиях.