Neural PLDA Modeling for End-to-End Speaker Verifi

// abstract

Несмотря на значительные успехи моделей глубокого обучения в задачах классификации, их применение для верификации объектов вне обучающей выборки (например, в распознавании диктора) долгое время ограничивалось лишь извлечением признаков (эмбеддингов). Современные системы верификации на базе x-векторов используют генеративную модель вероятностного линейного дискриминантного анализа (PLDA) для расчета оценки сходства. В данной работе предлагается подход на основе нейронных сетей для моделирования бэкенда системы. Это позволяет перейти к более эффективной сквозной архитектуре верификации.

// описание

Работа исследует применение нейронных сетей для сквозной верификации дикторов, выходя за рамки простого извлечения признаков. Авторы предлагают заменить традиционные генеративные модели PLDA на нейросетевой подход для более точного сопоставления голосов. Это улучшает производительность систем распознавания речи в сложных сценариях, где тестируемые образцы не входят в обучающую выборку.

// авторы

Shreyas Ramoji, Prashant Krishnan, Sriram Ganapathy

← все исследования

Нейронное моделирование PLDA для сквозной верификации диктора