Яндекс Метрика
cs.LG, cs.AI, cs.RO

Оптимизация инвариантных стратегий: на пути к повышению обобщающей способности в обучении с подкреплением

Anoopkumar Sonar, Vincent Pacelli, Anirudha Majumdar01.06.2020

Фундаментальной проблемой обучения с подкреплением является создание стратегий, способных эффективно работать за пределами сред, представленных во время обучения. В данной работе этот вызов решается через принцип инвариантности: агент должен найти такое представление данных, при котором предсказатель действий будет одновременно оптимальным для всех тренировочных доменов. Интуитивно понятная инвариантная стратегия улучшает обобщение, выявляя истинные причинно-следственные связи, ведущие к успеху. Такой подход позволяет модели игнорировать ложные корреляции, характерные только для конкретных обучающих сценариев.

Работа решает фундаментальную проблему обучения с подкреплением — неспособность агентов адаптироваться к условиям, которые отличаются от тренировочных. Авторы представляют метод инвариантной оптимизации стратегий (IPO), который заставляет ИИ находить универсальные представления, пригодные для множества различных сред. Это позволяет создавать модели с высокой способностью к обобщению, способные надежно работать в новых, ранее не виденных сценариях.

Anoopkumar Sonar, Vincent Pacelli, Anirudha Majumdar