Предложен подход к самообучаемому представлению данных, основанный на максимизации взаимной информации между признаками, извлеченными из разных «ракурсов» одного контекста. Под ракурсами могут пониматься данные из разных точек обзора или разных модальностей (зрение, слух, осязание), относящиеся к одному объекту. Метод также применим к обычным изображениям, где ракурсы создаются путем многократных случайных преобразований исходного кадра. Такой подход позволяет модели эффективно выявлять наиболее значимые и инвариантные характеристики данных без использования ручной разметки.
Авторы представляют новый метод самообучения нейросетей, основанный на максимизации взаимной информации между разными «ракурсами» одного контекста. Система учится сопоставлять данные из разных источников — например, видео с разных камер или сочетание звука и изображения — для создания универсальных представлений об объектах. Это значительно повышает эффективность обучения моделей на неразмеченных данных.