Современные модели часто превосходят человека в конкретном тесте (бенчмарке), но терпят неудачу на аналогичных наборах данных из-за наличия ложных корреляций и побочных смещений. Простая адаптация модели под существующие тесты не гарантирует, что она справится с новыми задачами в будущем. Для создания систем, которые «действительно обучаются» самой сути задачи, необходимо количественно оценивать различия между последовательными бенчмарками. Авторы предлагают отойти от бинарных оценок по принципу «черного ящика» в пользу глубокого анализа структуры самих оценочных инструментов.
Работа посвящена проблеме «ложных корреляций» в бенчмарках, из-за которых ИИ-модели показывают высокие результаты в тестах, но не справляются с реальными задачами. Авторы представляют руководство DQI для оценки качества наборов данных, помогающее понять, действительно ли модель освоила навык или просто подстроилась под специфические шумы в данных. Это важный шаг к созданию систем, способных к осознанному обучению, а не простому запоминанию паттернов.