Яндекс Метрика
cs.CL, stat.ML

Стратегии взвешенного обучения на данных для исправления грамматических ошибок

Jared Lichtarge, Chris Alberti, Shankar Kumar07.08.2020

Прогресс в области автоматического исправления грамматических ошибок (GEC) во многом связан с решением проблемы нехватки данных. Современные методы используют как генерацию огромных массивов зашумленных данных для предобучения, так и небольшие высококачественные наборы для тонкой настройки. Опираясь на наработки в области нейронного машинного перевода, авторы предлагают систему оценки отдельных примеров в больших выборках на основе их соответствия качественным данным. Такой взвешенный подход позволяет оптимизировать процесс обучения и повысить итоговую точность моделей.

В работе представлены стратегии взвешенного обучения для систем автоматического исправления грамматических ошибок (GEC). Исследователи объединили использование огромных массивов «шумных» данных для предобучения с небольшими выборками высокого качества для тонкой настройки. Такой метод эффективно решает проблему дефицита данных и заметно повышает точность коррекции текстов нейросетями.

Jared Lichtarge, Chris Alberti, Shankar Kumar