Яндекс Метрика
eess.AS, cs.CL, cs.LG

Исследование сквозных систем распознавания речи для OpenSTT — открытого набора данных русской речи

Andrei Andrusenko, Aleksandr Laptev, Ivan Medennikov15.06.2020

В данной работе исследуются сквозные (end-to-end) системы автоматического распознавания речи (ASR) на базе OpenSTT — крупнейшего открытого набора данных для русского языка. Авторы оценивают различные современные архитектуры, включая совмещенные модели CTC/Attention, RNN-Transducer и Transformer, сравнивая их с сильной гибридной системой на основе акустической модели TDNN-F. Лучшая сквозная модель показала высокие результаты по метрике посимвольной ошибки (WER) на трех валидационных выборках: телефонных разговорах, видео из YouTube и аудиокнигах.

Исследователи протестировали современные сквозные (end-to-end) архитектуры распознавания речи на крупнейшем открытом русскоязычном датасете OpenSTT. В работе сравниваются подходы Transformer, RNN-Transducer и CTC/Attention с классическими гибридными моделями. Результаты исследования помогают определить наиболее эффективные методы обработки русской речи для создания высокоточных систем транскрибации.

Andrei Andrusenko, Aleksandr Laptev, Ivan Medennikov