On the Comparison of Popular End-to-End Models for

// abstract

В последнее время в области автоматического распознавания речи наблюдается активный переход от гибридных систем к сквозным (end-to-end) моделям. В данной работе проводится эмпирическое сравнение трех перспективных архитектур: RNN-T, RNN-AED и Transformer-AED. Исследователи анализируют работу этих моделей как в потоковом, так и в обычном режимах. Для обучения и тестирования систем использовался массив анонимизированных данных Microsoft объемом 65 тысяч часов.

// описание

Исследование проводит масштабное сравнение трех ключевых архитектур для сквозного распознавания речи: RNN-T, RNN-AED и Transformer-AED. Авторы анализируют их эффективность на больших объемах данных, помогая определить оптимальные модели для замены устаревших гибридных систем. Работа дает четкие ориентиры для разработчиков голосовых интерфейсов по выбору наиболее точных и быстрых алгоритмов.

// авторы

Jinyu Li, Yu Wu, Yashesh Gaur, Chengyi Wang, Rui Zhao, Shujie Liu

← все исследования

Сравнение популярных сквозных (end-to-end) моделей для крупномасштабного распознавания речи