Яндекс Метрика
cs.MM, cs.AI, cs.CV

Смотри, слушай и концентрируйся: сеть совместного внимания для самообучаемого представления аудиовизуальных данных

Ying Cheng, Ruize Wang, Zhihao Pan, Rui Feng, Yuejie Zhang13.08.2020

При просмотре видео визуальные события часто сопровождаются звуковыми, что создает естественную корреляцию между модальностями. Эту внутреннюю связь можно использовать в качестве «бесплатного» обучающего сигнала для нейронных сетей, решая задачу аудиовизуальной синхронизации. В статье предлагается новая архитектура с механизмом совместного внимания (co-attention) для формирования универсальных кросс-модальных представлений. Разработанный метод позволяет эффективно объединять информацию из разных каналов восприятия без использования ручной разметки данных.

Предложена нейросеть Co-Attention Network, которая обучается сопоставлять звук и изображение в видео в режиме самообучения (self-supervised). Используя естественную синхронизацию аудиовизуальных событий как обучающий сигнал, модель эффективно извлекает признаки данных без необходимости в дорогостоящей ручной разметке.

Ying Cheng, Ruize Wang, Zhihao Pan, Rui Feng, Yuejie Zhang