Exploration of End-to-End ASR for OpenSTT -- Russi

// abstract

В данной работе исследуются сквозные (end-to-end) системы автоматического распознавания речи (ASR) на базе OpenSTT — крупнейшего открытого набора данных для русского языка. Авторы оценивают различные современные архитектуры, включая совмещенные модели CTC/Attention, RNN-Transducer и Transformer, сравнивая их с сильной гибридной системой на основе акустической модели TDNN-F. Лучшая сквозная модель показала высокие результаты по метрике посимвольной ошибки (WER) на трех валидационных выборках: телефонных разговорах, видео из YouTube и аудиокнигах.

// описание

Исследователи протестировали современные сквозные (end-to-end) архитектуры распознавания речи на крупнейшем открытом русскоязычном датасете OpenSTT. В работе сравниваются подходы Transformer, RNN-Transducer и CTC/Attention с классическими гибридными моделями. Результаты исследования помогают определить наиболее эффективные методы обработки русской речи для создания высокоточных систем транскрибации.

// авторы

Andrei Andrusenko, Aleksandr Laptev, Ivan Medennikov

← все исследования

Исследование сквозных систем распознавания речи для OpenSTT — открытого набора данных русской речи