Фундаментальной проблемой обучения с подкреплением является создание стратегий, способных эффективно работать за пределами сред, представленных во время обучения. В данной работе этот вызов решается через принцип инвариантности: агент должен найти такое представление данных, при котором предсказатель действий будет одновременно оптимальным для всех тренировочных доменов. Интуитивно понятная инвариантная стратегия улучшает обобщение, выявляя истинные причинно-следственные связи, ведущие к успеху. Такой подход позволяет модели игнорировать ложные корреляции, характерные только для конкретных обучающих сценариев.
Работа решает фундаментальную проблему обучения с подкреплением — неспособность агентов адаптироваться к условиям, которые отличаются от тренировочных. Авторы представляют метод инвариантной оптимизации стратегий (IPO), который заставляет ИИ находить универсальные представления, пригодные для множества различных сред. Это позволяет создавать модели с высокой способностью к обобщению, способные надежно работать в новых, ранее не виденных сценариях.