// описание

Золотой стандарт для оценки кодинг-агентов, содержащий 500 отобранных и проверенных вручную задач с GitHub. В отличие от базовой версии, здесь исключены сомнительные примеры, что гарантирует объективную проверку способности ИИ исправлять реальные баги. Если вы создаете автономного ИИ-разработчика, этот датасет — ваш главный экзаменатор.

← все датасеты

SWE-bench_Verified