Интерпретируемость моделей обработки естественного языка (NLP) необходима для повышения доверия к их прогнозам, что делает оценку методов объяснения критически важным вопросом. Существующие наборы данных для проверки интерпретируемости часто полагаются на человеческую разметку, что ставит под сомнение их объективность. В данной работе предлагается альтернативный подход: на основе датасетов для ответов на вопросы формулируется специфическая задача классификации. В рамках этой задачи эталонные объяснения (ground truth) формируются автоматически, что позволяет более непредвзято оценивать работу интерпретируемых моделей.
Представлен новый бенчмарк QUACKIE, предназначенный для оценки интерпретируемости моделей обработки естественного языка. В отличие от существующих наборов данных, опирающихся на субъективное мнение людей, QUACKIE предлагает объективную «истину» для проверки того, насколько честно ИИ объясняет логику своих прогнозов. Проект направлен на повышение прозрачности и доверия к сложным алгоритмам классификации текста.