Яндекс Метрика
cs.CL, cs.CV, cs.LG

DQI: Руководство по оценке бенчмарков

Swaroop Mishra, Anjana Arunkumar, Bhavdeep Sachdeva, Chris Bryan, Chitta Baral10.08.2020

Современные модели часто превосходят человека в конкретном тесте (бенчмарке), но терпят неудачу на аналогичных наборах данных из-за наличия ложных корреляций и побочных смещений. Простая адаптация модели под существующие тесты не гарантирует, что она справится с новыми задачами в будущем. Для создания систем, которые «действительно обучаются» самой сути задачи, необходимо количественно оценивать различия между последовательными бенчмарками. Авторы предлагают отойти от бинарных оценок по принципу «черного ящика» в пользу глубокого анализа структуры самих оценочных инструментов.

Работа посвящена проблеме «ложных корреляций» в бенчмарках, из-за которых ИИ-модели показывают высокие результаты в тестах, но не справляются с реальными задачами. Авторы представляют руководство DQI для оценки качества наборов данных, помогающее понять, действительно ли модель освоила навык или просто подстроилась под специфические шумы в данных. Это важный шаг к созданию систем, способных к осознанному обучению, а не простому запоминанию паттернов.

Swaroop Mishra, Anjana Arunkumar, Bhavdeep Sachdeva, Chris Bryan, Chitta Baral