В последнее время в области автоматического распознавания речи наблюдается активный переход от гибридных систем к сквозным (end-to-end) моделям. В данной работе проводится эмпирическое сравнение трех перспективных архитектур: RNN-T, RNN-AED и Transformer-AED. Исследователи анализируют работу этих моделей как в потоковом, так и в обычном режимах. Для обучения и тестирования систем использовался массив анонимизированных данных Microsoft объемом 65 тысяч часов.
Исследование проводит масштабное сравнение трех ключевых архитектур для сквозного распознавания речи: RNN-T, RNN-AED и Transformer-AED. Авторы анализируют их эффективность на больших объемах данных, помогая определить оптимальные модели для замены устаревших гибридных систем. Работа дает четкие ориентиры для разработчиков голосовых интерфейсов по выбору наиболее точных и быстрых алгоритмов.