Яндекс Метрика
eess.AS, cs.CL

Сравнение популярных сквозных (end-to-end) моделей для крупномасштабного распознавания речи

Jinyu Li, Yu Wu, Yashesh Gaur, Chengyi Wang, Rui Zhao, Shujie Liu28.05.2020

В последнее время в области автоматического распознавания речи наблюдается активный переход от гибридных систем к сквозным (end-to-end) моделям. В данной работе проводится эмпирическое сравнение трех перспективных архитектур: RNN-T, RNN-AED и Transformer-AED. Исследователи анализируют работу этих моделей как в потоковом, так и в обычном режимах. Для обучения и тестирования систем использовался массив анонимизированных данных Microsoft объемом 65 тысяч часов.

Исследование проводит масштабное сравнение трех ключевых архитектур для сквозного распознавания речи: RNN-T, RNN-AED и Transformer-AED. Авторы анализируют их эффективность на больших объемах данных, помогая определить оптимальные модели для замены устаревших гибридных систем. Работа дает четкие ориентиры для разработчиков голосовых интерфейсов по выбору наиболее точных и быстрых алгоритмов.

Jinyu Li, Yu Wu, Yashesh Gaur, Chengyi Wang, Rui Zhao, Shujie Liu