Яндекс Метрика
cs.CL, cs.IR, cs.LG

HCMS на SemEval-2020 Task 9: Нейросетевой подход к анализу тональности текстов со смешением языковых кодов

Aditya Srivastava, V. Harsha Vardhan23.07.2020

Исследования текстов со смешением языков (code-mixing) часто сталкиваются с проблемой нехватки ресурсов и отсутствием данных для эффективного переноса обучения (transfer learning). В статье описывается решение для задачи Sentimix (хинди-английский), целью которой является классификация тональности смешанных сообщений. Авторы демонстрируют, что использование простых механизмов свертки и внимания позволяет достичь показателя F1-меры 67,1%. Работа подтверждает эффективность базовых нейросетевых архитектур в условиях ограниченности специализированных лингвистических данных.

Работа посвящена анализу тональности текстов на смешанных языках (хинди-английский), для которых часто не хватает размеченных данных. Авторы доказали, что сочетание простых сверточных нейросетей и механизмов внимания позволяет достичь высокого качества классификации эмоций даже в условиях дефицита обучающих ресурсов.

Aditya Srivastava, V. Harsha Vardhan