Яндекс Метрика
cs.CL, cs.SD, eess.AS

Синтез речи как метод аугментации данных для систем распознавания речи в условиях ограниченных ресурсов

Deblin Bagchi, Shannon Wotherspoon, Zhuolin Jiang, Prasanna Muthukumar23.12.2020

Технологии синтеза речи могут стать ключом к созданию эффективных систем распознавания речи (ASR) при нехватке размеченных данных. Традиционные методы аугментации, используемые при обучении ASR, зачастую слишком упрощены и редко отражают реальные акустические условия. В то же время современные алгоритмы синтеза стремительно приближаются к достижению естественного человеческого звучания. В данной статье исследуется возможность использования синтезированной речи в качестве формы аугментации данных для снижения объема ресурсов, необходимых для построения качественных моделей распознавания.

Исследователи изучают потенциал синтеза речи как инструмента для обучения систем распознавания голоса (ASR) в условиях дефицита данных. Вместо простых методов аугментации предлагается использовать современные нейросети для генерации реалистичных аудиозаписей, имитирующих человеческую речь. Это открывает путь к созданию качественных голосовых интерфейсов для редких языков и узкоспециализированных доменов.

Deblin Bagchi, Shannon Wotherspoon, Zhuolin Jiang, Prasanna Muthukumar