Несмотря на значительные успехи моделей глубокого обучения в задачах классификации, их применение для верификации объектов вне обучающей выборки (например, в распознавании диктора) долгое время ограничивалось лишь извлечением признаков (эмбеддингов). Современные системы верификации на базе x-векторов используют генеративную модель вероятностного линейного дискриминантного анализа (PLDA) для расчета оценки сходства. В данной работе предлагается подход на основе нейронных сетей для моделирования бэкенда системы. Это позволяет перейти к более эффективной сквозной архитектуре верификации.
Работа исследует применение нейронных сетей для сквозной верификации дикторов, выходя за рамки простого извлечения признаков. Авторы предлагают заменить традиционные генеративные модели PLDA на нейросетевой подход для более точного сопоставления голосов. Это улучшает производительность систем распознавания речи в сложных сценариях, где тестируемые образцы не входят в обучающую выборку.