FireBERT: Hardening BERT-based classifiers against

// abstract

Представлена система FireBERT, включающая три метода защиты классификаторов текста от состязательных атак типа TextFooler (подмена слов). Первый подход основан на совместном обучении модели на исходных данных и синтетических атакующих примерах. Второй метод генерирует альтернативные варианты текста непосредственно во время работы модели путем замены слов и возмущения векторов эмбеддингов с последующим голосованием для выбора верного ответа. Данные методы позволяют создавать более надежные NLP-системы, устойчивые к попыткам обмана нейросети.

// описание

Исследователи представили FireBERT — метод защиты текстовых классификаторов от состязательных атак, которые пытаются обмануть ИИ путем замены отдельных слов. Система повышает устойчивость нейросети за счет дообучения на синтетических примерах и генерации альтернативных вариантов текста в процессе работы. Это решение делает языковые модели более надежными и защищенными от целенаправленных попыток взлома алгоритмов.

// авторы

Gunnar Mein, Kevin Hartman, Andrew Morris

← все исследования

FireBERT: Повышение устойчивости классификаторов на базе BERT к состязательным атакам