// описание
Золотой стандарт для проверки «интеллекта» языковых моделей, охватывающий 57 предметов от гуманитарных наук до высшей математики. Датасет состоит из тысяч вопросов с вариантами ответов, которые тестируют не только знания, но и логику модели. Если вы хотите узнать, насколько ваша LLM готова к реальному миру, прогоните её через этот бенчмарк.