Яндекс Метрика
cs.CL, cs.LG

REINFORCE с апостериорной регуляризацией для отбора экземпляров при дистанционном обучении

Qi Zhang, Siliang Tang, Xiang Ren, Fei Wu, Shiliang Pu, Yueting Zhuang17.04.2019

В данной статье представлен новый способ повышения эффективности алгоритма обучения REINFORCE. Мы применяем этот метод для задачи отбора экземпляров в условиях дистанционного обучения (distant supervision). Процесс отбора моделируется как последовательное принятие решений, где агент обучения с подкреплением определяет ценность каждого примера для формирования выборки с низким уровнем шума. Чтобы ускорить процесс обучения, который у стандартного REINFORCE занимает много времени, авторы используют механизм апостериорной регуляризации.

Авторы разработали метод на базе алгоритма REINFORCE для автоматического отбора наиболее значимых данных в задачах дистанционного обучения (distant supervision). Использование апостериорной регуляризации позволяет эффективно отсеивать «шумные» примеры, значительно повышая точность и скорость обучения ИИ-агентов.

Qi Zhang, Siliang Tang, Xiang Ren, Fei Wu, Shiliang Pu, Yueting Zhuang