Яндекс Метрика
cs.LG, stat.ML

Верхние доверительные границы для объединения стохастических многоруких бандитов

Ashok Cutkosky, Abhimanyu Das, Manish Purohit24.12.2020

В статье предлагается простой метод объединения нескольких алгоритмов стохастических бандитов. Подход основан на процедуре «meta-UCB», которая рассматривает каждый из $N$ базовых алгоритмов как отдельную «руку» в задаче более высокого уровня. Итоговое значение регрета (потерь) в такой системе зависит только от показателей наилучшего из базовых алгоритмов, выбранного апостериорно. Данная стратегия является интуитивно понятной альтернативой алгоритму CORRAL и эффективно справляется с задачами в условиях состязательной среды.

Авторы представляют метод «meta-UCB» для эффективного объединения нескольких алгоритмов стохастических многоруких бандитов. Система рассматривает каждый базовый алгоритм как отдельный вариант выбора в задаче более высокого уровня, автоматически переключаясь на наиболее эффективный в реальном времени. Такой подход минимизирует риски и гарантирует результат на уровне лучшего из доступных алгоритмов в любой ситуации.

Ashok Cutkosky, Abhimanyu Das, Manish Purohit