При просмотре видео визуальные события часто сопровождаются звуковыми, что создает естественную корреляцию между модальностями. Эту внутреннюю связь можно использовать в качестве «бесплатного» обучающего сигнала для нейронных сетей, решая задачу аудиовизуальной синхронизации. В статье предлагается новая архитектура с механизмом совместного внимания (co-attention) для формирования универсальных кросс-модальных представлений. Разработанный метод позволяет эффективно объединять информацию из разных каналов восприятия без использования ручной разметки данных.
Предложена нейросеть Co-Attention Network, которая обучается сопоставлять звук и изображение в видео в режиме самообучения (self-supervised). Используя естественную синхронизацию аудиовизуальных событий как обучающий сигнал, модель эффективно извлекает признаки данных без необходимости в дорогостоящей ручной разметке.