В данной статье представлен новый способ повышения эффективности алгоритма обучения REINFORCE. Мы применяем этот метод для задачи отбора экземпляров в условиях дистанционного обучения (distant supervision). Процесс отбора моделируется как последовательное принятие решений, где агент обучения с подкреплением определяет ценность каждого примера для формирования выборки с низким уровнем шума. Чтобы ускорить процесс обучения, который у стандартного REINFORCE занимает много времени, авторы используют механизм апостериорной регуляризации.
Авторы разработали метод на базе алгоритма REINFORCE для автоматического отбора наиболее значимых данных в задачах дистанционного обучения (distant supervision). Использование апостериорной регуляризации позволяет эффективно отсеивать «шумные» примеры, значительно повышая точность и скорость обучения ИИ-агентов.