В данной работе представлена новая интерпретация марковских процессов принятия решений (MDP) с точки зрения онлайн-оптимизации. В рамках этого подхода стратегия MDP рассматривается как переменная решения, а соответствующая функция ценности — как обратная связь от среды в виде выигрыша. На основе данной интерпретации авторы конструируют игру Блэкуэлла, порожденную MDP, которая связывает воедино минимизацию регрета (сожаления), теорию достижимости Блэкуэлла и теорию обучения для MDP.
Исследование предлагает новый взгляд на марковские процессы принятия решений (MDP) через призму онлайн-оптимизации. Авторы интерпретируют политику MDP как переменную решения, а функцию ценности — как обратную связь от среды, что позволяет построить игру Блэквелла. Этот подход создает мост между классическим обучением с подкреплением и методами онлайн-оптимизации для более эффективного управления агентами.