Look, Listen, and Attend: Co-Attention Network for

// abstract

При просмотре видео визуальные события часто сопровождаются звуковыми, что создает естественную корреляцию между модальностями. Эту внутреннюю связь можно использовать в качестве «бесплатного» обучающего сигнала для нейронных сетей, решая задачу аудиовизуальной синхронизации. В статье предлагается новая архитектура с механизмом совместного внимания (co-attention) для формирования универсальных кросс-модальных представлений. Разработанный метод позволяет эффективно объединять информацию из разных каналов восприятия без использования ручной разметки данных.

// описание

Предложена нейросеть Co-Attention Network, которая обучается сопоставлять звук и изображение в видео в режиме самообучения (self-supervised). Используя естественную синхронизацию аудиовизуальных событий как обучающий сигнал, модель эффективно извлекает признаки данных без необходимости в дорогостоящей ручной разметке.

// авторы

Ying Cheng, Ruize Wang, Zhihao Pan, Rui Feng, Yuejie Zhang

← все исследования

Смотри, слушай и концентрируйся: сеть совместного внимания для самообучаемого представления аудиовизуальных данных