Data Weighted Training Strategies for Grammatical

// abstract

Прогресс в области автоматического исправления грамматических ошибок (GEC) во многом связан с решением проблемы нехватки данных. Современные методы используют как генерацию огромных массивов зашумленных данных для предобучения, так и небольшие высококачественные наборы для тонкой настройки. Опираясь на наработки в области нейронного машинного перевода, авторы предлагают систему оценки отдельных примеров в больших выборках на основе их соответствия качественным данным. Такой взвешенный подход позволяет оптимизировать процесс обучения и повысить итоговую точность моделей.

// описание

В работе представлены стратегии взвешенного обучения для систем автоматического исправления грамматических ошибок (GEC). Исследователи объединили использование огромных массивов «шумных» данных для предобучения с небольшими выборками высокого качества для тонкой настройки. Такой метод эффективно решает проблему дефицита данных и заметно повышает точность коррекции текстов нейросетями.

// авторы

Jared Lichtarge, Chris Alberti, Shankar Kumar

← все исследования

Стратегии взвешенного обучения на данных для исправления грамматических ошибок