Исследования текстов со смешением языков (code-mixing) часто сталкиваются с проблемой нехватки ресурсов и отсутствием данных для эффективного переноса обучения (transfer learning). В статье описывается решение для задачи Sentimix (хинди-английский), целью которой является классификация тональности смешанных сообщений. Авторы демонстрируют, что использование простых механизмов свертки и внимания позволяет достичь показателя F1-меры 67,1%. Работа подтверждает эффективность базовых нейросетевых архитектур в условиях ограниченности специализированных лингвистических данных.
Работа посвящена анализу тональности текстов на смешанных языках (хинди-английский), для которых часто не хватает размеченных данных. Авторы доказали, что сочетание простых сверточных нейросетей и механизмов внимания позволяет достичь высокого качества классификации эмоций даже в условиях дефицита обучающих ресурсов.