Почему SWE-bench Verified больше не подходит для оценки ИИ

@ tokenburn# 24.02.2026~ 4 мин / Исследования и разработки

источник: openai.com

Популярный инструмент для оценки способностей нейросетей в программировании SWE-bench Verified столкнулся с серьезными проблемами загрязнения данных и ошибочными тестами. Эксперты призывают индустрию переходить на версию SWE-bench Pro для получения объективных результатов развития LLM.

В мире искусственного интеллекта способность нейросетей писать код считается одной из самых сложных и востребованных задач. Долгое время золотым стандартом для оценки этих навыков считался бенчмарк SWE-bench — набор тестов, имитирующих реальные задачи программной инженерии. Однако последнее исследование показало, что версия SWE-bench Verified начала давать сбои, переставая быть объективным мерилом прогресса.

Что такое SWE-bench и почему он важен?

Для начала разберемся в терминах. Бенчмарк — это стандартизированный тест, который позволяет сравнить разные модели ИИ между собой. SWE-bench проверяет, насколько хорошо LLM (большие языковые модели) могут исправлять ошибки в реальных open-source проектах. Если нейросеть успешно проходит такой тест, это означает, что она способна понимать структуру кода, находить баги и предлагать рабочие решения.

Проблема «загрязнения» данных

Главная претензия исследователей к SWE-bench Verified заключается в так называемом «загрязнении» (data contamination). Это ситуация, при которой тестовые задания и ответы на них попадают в обучающую выборку нейросети. В результате машинное обучение происходит не на принципах решения задач, а на простом запоминании правильных ответов.

Когда ИИ сталкивается со знакомой задачей, он не «думает», а воспроизводит заученный фрагмент кода. Это создает иллюзию невероятного прогресса, хотя на практике модель может оказаться беспомощной перед новой, уникальной задачей.

Ошибочные тесты и утечки

Анализ показал, что SWE-bench Verified содержит значительное количество ошибочных тестов. Это означает, что даже если нейросеть предлагает верное решение, автоматизированная система проверки может пометить его как неправильное из-за багов в самом тестовом окружении. Кроме того, выявленные утечки обучения делают текущие рейтинги моделей практически бессмысленными.

Основные проблемы текущего подхода:

Регрессия качества: старые тесты становятся слишком легкими для современных моделей из-за их наличия в интернете.
Ложные срабатывания: ошибки в юнит-тестах самого бенчмарка искажают итоговый балл.
Неактуальность: многие задачи в наборе данных уже не отражают современные практики разработки.

Будущее за SWE-bench Pro

Чтобы вернуть доверие к метрикам, эксперты рекомендуют переходить на SWE-bench Pro. Эта версия разработана с учетом защиты от утечек данных и включает в себя более строгие критерии проверки. Она призвана отсеять модели, которые просто «зубрят» код, и выделить те нейросети, которые действительно обладают навыками логического мышления и проектирования программного обеспечения.

Для индустрии это важный сигнал: слепая погоня за высокими процентами в старых тестах больше не имеет смысла. Будущее ИИ-разработки зависит от создания динамических и защищенных систем оценки, которые смогут реально подтвердить эффективность алгоритмов в боевых условиях.

> AI-дайджест 16 мая 2026: Релиз GPT-5.5 и экспансия DeepSeek-V4 > AI-дайджест 15 мая 2026: Релиз GPT-5.5 и ИИ-поиск внеземной жизни > AI-дайджест 14 мая 2026: Релиз GPT-5.5 и ИИ-поиск жизни в космосе > AI-дайджест 13 мая 2026: Релиз GPT-5.5 и ИИ для поиска жизни в космосе

Кризис оценки ИИ-кодеров: почему популярный бенчмарк SWE-bench Verified теряет актуальность

Что такое SWE-bench и почему он важен?

Проблема «загрязнения» данных

Ошибочные тесты и утечки

Будущее за SWE-bench Pro