Яндекс Метрика
cs.CL, cs.LG

FireBERT: Повышение устойчивости классификаторов на базе BERT к состязательным атакам

Gunnar Mein, Kevin Hartman, Andrew Morris10.08.2020

Представлена система FireBERT, включающая три метода защиты классификаторов текста от состязательных атак типа TextFooler (подмена слов). Первый подход основан на совместном обучении модели на исходных данных и синтетических атакующих примерах. Второй метод генерирует альтернативные варианты текста непосредственно во время работы модели путем замены слов и возмущения векторов эмбеддингов с последующим голосованием для выбора верного ответа. Данные методы позволяют создавать более надежные NLP-системы, устойчивые к попыткам обмана нейросети.

Исследователи представили FireBERT — метод защиты текстовых классификаторов от состязательных атак, которые пытаются обмануть ИИ путем замены отдельных слов. Система повышает устойчивость нейросети за счет дообучения на синтетических примерах и генерации альтернативных вариантов текста в процессе работы. Это решение делает языковые модели более надежными и защищенными от целенаправленных попыток взлома алгоритмов.

Gunnar Mein, Kevin Hartman, Andrew Morris