Яндекс Метрика
cs.LG

Онлайн-обучение Блэкуэлла для марковских процессов принятия решений

Tao Li, Guanze Peng, Quanyan Zhu28.12.2020

В данной работе представлена новая интерпретация марковских процессов принятия решений (MDP) с точки зрения онлайн-оптимизации. В рамках этого подхода стратегия MDP рассматривается как переменная решения, а соответствующая функция ценности — как обратная связь от среды в виде выигрыша. На основе данной интерпретации авторы конструируют игру Блэкуэлла, порожденную MDP, которая связывает воедино минимизацию регрета (сожаления), теорию достижимости Блэкуэлла и теорию обучения для MDP.

Исследование предлагает новый взгляд на марковские процессы принятия решений (MDP) через призму онлайн-оптимизации. Авторы интерпретируют политику MDP как переменную решения, а функцию ценности — как обратную связь от среды, что позволяет построить игру Блэквелла. Этот подход создает мост между классическим обучением с подкреплением и методами онлайн-оптимизации для более эффективного управления агентами.

Tao Li, Guanze Peng, Quanyan Zhu