Blackwell Online Learning for Markov Decision Proc

// abstract

В данной работе представлена новая интерпретация марковских процессов принятия решений (MDP) с точки зрения онлайн-оптимизации. В рамках этого подхода стратегия MDP рассматривается как переменная решения, а соответствующая функция ценности — как обратная связь от среды в виде выигрыша. На основе данной интерпретации авторы конструируют игру Блэкуэлла, порожденную MDP, которая связывает воедино минимизацию регрета (сожаления), теорию достижимости Блэкуэлла и теорию обучения для MDP.

// описание

Исследование предлагает новый взгляд на марковские процессы принятия решений (MDP) через призму онлайн-оптимизации. Авторы интерпретируют политику MDP как переменную решения, а функцию ценности — как обратную связь от среды, что позволяет построить игру Блэквелла. Этот подход создает мост между классическим обучением с подкреплением и методами онлайн-оптимизации для более эффективного управления агентами.

// авторы

Tao Li, Guanze Peng, Quanyan Zhu

← все исследования

Онлайн-обучение Блэкуэлла для марковских процессов принятия решений