Speech Synthesis as Augmentation for Low-Resource

// abstract

Технологии синтеза речи могут стать ключом к созданию эффективных систем распознавания речи (ASR) при нехватке размеченных данных. Традиционные методы аугментации, используемые при обучении ASR, зачастую слишком упрощены и редко отражают реальные акустические условия. В то же время современные алгоритмы синтеза стремительно приближаются к достижению естественного человеческого звучания. В данной статье исследуется возможность использования синтезированной речи в качестве формы аугментации данных для снижения объема ресурсов, необходимых для построения качественных моделей распознавания.

// описание

Исследователи изучают потенциал синтеза речи как инструмента для обучения систем распознавания голоса (ASR) в условиях дефицита данных. Вместо простых методов аугментации предлагается использовать современные нейросети для генерации реалистичных аудиозаписей, имитирующих человеческую речь. Это открывает путь к созданию качественных голосовых интерфейсов для редких языков и узкоспециализированных доменов.

// авторы

Deblin Bagchi, Shannon Wotherspoon, Zhuolin Jiang, Prasanna Muthukumar

← все исследования

Синтез речи как метод аугментации данных для систем распознавания речи в условиях ограниченных ресурсов