Posterior-regularized REINFORCE for Instance Selec

// abstract

В данной статье представлен новый способ повышения эффективности алгоритма обучения REINFORCE. Мы применяем этот метод для задачи отбора экземпляров в условиях дистанционного обучения (distant supervision). Процесс отбора моделируется как последовательное принятие решений, где агент обучения с подкреплением определяет ценность каждого примера для формирования выборки с низким уровнем шума. Чтобы ускорить процесс обучения, который у стандартного REINFORCE занимает много времени, авторы используют механизм апостериорной регуляризации.

// описание

Авторы разработали метод на базе алгоритма REINFORCE для автоматического отбора наиболее значимых данных в задачах дистанционного обучения (distant supervision). Использование апостериорной регуляризации позволяет эффективно отсеивать «шумные» примеры, значительно повышая точность и скорость обучения ИИ-агентов.

// авторы

Qi Zhang, Siliang Tang, Xiang Ren, Fei Wu, Shiliang Pu, Yueting Zhuang

← все исследования

REINFORCE с апостериорной регуляризацией для отбора экземпляров при дистанционном обучении