В данной работе исследуются сквозные (end-to-end) системы автоматического распознавания речи (ASR) на базе OpenSTT — крупнейшего открытого набора данных для русского языка. Авторы оценивают различные современные архитектуры, включая совмещенные модели CTC/Attention, RNN-Transducer и Transformer, сравнивая их с сильной гибридной системой на основе акустической модели TDNN-F. Лучшая сквозная модель показала высокие результаты по метрике посимвольной ошибки (WER) на трех валидационных выборках: телефонных разговорах, видео из YouTube и аудиокнигах.
Исследователи протестировали современные сквозные (end-to-end) архитектуры распознавания речи на крупнейшем открытом русскоязычном датасете OpenSTT. В работе сравниваются подходы Transformer, RNN-Transducer и CTC/Attention с классическими гибридными моделями. Результаты исследования помогают определить наиболее эффективные методы обработки русской речи для создания высокоточных систем транскрибации.