Представлена система FireBERT, включающая три метода защиты классификаторов текста от состязательных атак типа TextFooler (подмена слов). Первый подход основан на совместном обучении модели на исходных данных и синтетических атакующих примерах. Второй метод генерирует альтернативные варианты текста непосредственно во время работы модели путем замены слов и возмущения векторов эмбеддингов с последующим голосованием для выбора верного ответа. Данные методы позволяют создавать более надежные NLP-системы, устойчивые к попыткам обмана нейросети.
Исследователи представили FireBERT — метод защиты текстовых классификаторов от состязательных атак, которые пытаются обмануть ИИ путем замены отдельных слов. Система повышает устойчивость нейросети за счет дообучения на синтетических примерах и генерации альтернативных вариантов текста в процессе работы. Это решение делает языковые модели более надежными и защищенными от целенаправленных попыток взлома алгоритмов.