// каталог датасетов

Датасеты для машинного обучения: описание, задачи, статистика загрузок.

Огромный архив комментариев из японского сервиса Niconico Jikkyou, охватывающий 11 лет живого общения пользователей (2009–2020). Этот массив данных — настоящий клондайк для изучения интернет-сленга, культурных трендов и обучения моделей на естественном разговорном японском языке. Идеально подходит для задач классификации текста и анализа настроений в реальном времени.

2.3M загрузокподробнее →

huggingface

documentation-images

Коллекция всех изображений и визуальных ассетов, используемых в официальной документации библиотек HuggingFace. Датасет будет полезен разработчикам, создающим обучающие системы или инструменты для автоматизации технической документации. Это практичный набор данных для тех, кто хочет понять, как визуально структурирована база знаний крупнейшего ИИ-сообщества в мире.

2.0M загрузокподробнее →

Классификация текстаm-a-p

FineFineWeb

Тщательно структурированный веб-корпус, созданный для глубокого изучения доменных данных при обучении больших языковых моделей (LLM). Благодаря многократному делению на итерации и детальной классификации, он позволяет значительно повысить точность моделей в специфических тематиках. Лучший выбор, если вам нужно «прокачать» интеллект нейросети на качественном и разнообразном веб-контенте.

1.8M загрузокподробнее →

hf-doc-build

doc-build

Полное собрание документации портала HuggingFace, подготовленное специальным сборщиком для удобного машинного чтения. Это незаменимый ресурс для создания RAG-систем и умных ассистентов, которые должны безупречно разбираться в экосистеме современных ИИ-инструментов. С этим датасетом ваша модель всегда будет в курсе актуальных функций и библиотек HF.

1.7M загрузокподробнее →

bluuebunny

arxiv_metadata_by_year

Структурированный архив метаданных всех публикаций arXiv, удобно распределенный по годам выпуска. Датасет станет отличной базой для анализа трендов в науке, построения графов цитирований или разработки рекомендательных движков. Помогает быстро отследить эволюцию технологий и найти нужные работы в океане научных знаний.

1.5M загрузокподробнее →

banned-historical-archives

Уникальный архив оцифрованных исторических документов, газет и редких материалов, которые часто подвергаются цензуре или труднодоступны. Датасет представляет огромную ценность для исследователей в области истории, социологии и NLP, позволяя обучать модели на «неудобных» или специфических текстах. Отличный инструмент для сохранения культурной памяти и анализа исторических процессов через призму данных.

1.2M загрузокподробнее →

video-classificationropedia-ai

xperience-10m

Масштабный датасет для обучения видеомоделей «интерактивному интеллекту» на основе реального человеческого опыта. Он содержит миллионы видеофрагментов, которые помогают ИИ лучше понимать действия людей и их взаимодействие с окружающим миром. Это незаменимый ресурс для тех, кто строит продвинутые системы компьютерного зрения и обучает роботов действовать в живой среде.

896.4K загрузокподробнее →

image-to-3dtasl-lab

uniocc

Это универсальный бенчмарк для прогнозирования занятости пространства (occupancy) в задачах беспилотного вождения. Он объединяет разрозненные форматы популярных наборов данных в единый стандарт, избавляя разработчиков от долгой предобработки. Идеальный инструмент для обучения нейросетей точно предсказывать движение объектов и геометрию сцены в 3D.

775.7K загрузокподробнее →

Jsinowitz

snodas-snowmelt-cache

Специализированный кэш данных системы SNODAS, сфокусированный на процессах таяния снега и гидрологических изменениях. Датасет незаменим для построения климатических моделей, прогнозирования паводков и анализа водных ресурсов. Подойдет ML-инженерам, работающим с геоданными и экологическими прогнозами.

667.2K загрузокподробнее →

Rebabit0v0

parity-experiments

Технический датасет, содержащий логи и результаты экспериментов с адаптерами (PEFT) для оценки их производительности через тесты Oracle и Parity. Он структурирован для удобного сравнения различных методов дообучения моделей и хранения метаданных экспериментов. Полезный ресурс для исследователей, которые оптимизируют эффективность нейросетей и работают с их «весами».

650.8K загрузокподробнее →

princeton-nlp

SWE-bench_Verified

Золотой стандарт для оценки кодинг-агентов, содержащий 500 отобранных и проверенных вручную задач с GitHub. В отличие от базовой версии, здесь исключены сомнительные примеры, что гарантирует объективную проверку способности ИИ исправлять реальные баги. Если вы создаете автономного ИИ-разработчика, этот датасет — ваш главный экзаменатор.

647.3K загрузокподробнее →

Генерация текстаopenai

gsm8k

Легендарный набор из 8.5 тысяч математических задач уровня начальной школы, созданный OpenAI для тренировки логического вывода. Каждая задача требует многошагового решения, что делает датасет идеальным для обучения моделей цепочкам рассуждений (Chain-of-Thought). Базовый бенчмарк для всех, кто хочет научить нейросеть «думать», а не просто подбирать слова.

598.7K загрузокподробнее →

lavita

medical-qa-shared-task-v1-toy

Компактный набор данных, содержащий пары медицинских вопросов и ответов для обучения специализированных чат-ботов. Он идеально подходит для быстрого прототипирования ИИ-помощников в сфере здравоохранения и отладки логики ответов на сложные запросы. Несмотря на приставку «toy», датасет является отличной базой для тестов перед масштабированием модели.

576.7K загрузокподробнее →

Генерация текстаallenai

Гигантский очищенный корпус веб-текстов, созданный на основе Common Crawl для обучения мощных языковых моделей уровня T5. Он избавлен от «мусора», дублей и нецензурного контента, что делает его золотым стандартом для претрейнинга нейросетей. Если вы строите модель, которая должна безупречно понимать естественный язык, этот массив данных станет вашим фундаментом.

568.7K загрузокподробнее →

Генерация текстаepfml

FineWeb-HQ

Элитная выборка из датасета FineWeb, содержащая только 10% самых качественных и структурированных документов, отобранных нейросетевым классификатором. Этот набор данных фокусируется на глубоких знаниях и логике, позволяя обучать модели с более высоким интеллектом при меньших затратах ресурсов. Настоящий «концентрат» полезной информации для создания умных LLM.

563.3K загрузокподробнее →

Заполнение пропусковNaveen0501

dlgenai-nppe-dataset

Специализированный датасет для задач заполнения пропусков (Fill-Mask), ориентированный на тематику глубокого обучения и генеративного ИИ. Он помогает моделям лучше усваивать технический контекст и специфическую терминологию, используемую в современной ИИ-индустрии. Отличный инструмент для дообучения моделей, которые должны «говорить» на языке профильных разработчиков.

524.6K загрузокподробнее →

Kthera

pesoz

Популярный набор данных, который активно используется в сообществе для тонкой настройки (fine-tuning) языковых моделей под специфические задачи обработки текста. Благодаря своей структуре он помогает ИИ лучше адаптироваться к нюансам естественной речи и повышать точность генерации. Это надежный выбор для тех, кто ищет проверенные данные для улучшения производительности своих NLP-проектов.

521.3K загрузокподробнее →

builddotai

Egocentric-100K

Крупнейший датасет с видео от первого лица, сфокусированный на ручном труде и сложных манипуляциях. Он незаменим для обучения нейросетей распознаванию движений рук и взаимодействия с предметами в реальных условиях. Благодаря высокой плотности активных действий, это эталонный инструмент для разработки продвинутых систем компьютерного зрения.

484.1K загрузокподробнее →

roboticsIPEC-COMMUNITY

language_table_lerobot

Масштабный набор данных для обучения роботов xArm выполнению задач по текстовым командам. Содержит миллионы кадров и сотни тысяч эпизодов, что позволяет тренировать модели на понимание связи между естественным языком и физическими действиями. Идеальное решение для тех, кто строит умных роботов-помощников с помощью фреймворка LeRobot.

483.8K загрузокподробнее →

open-llm-leaderboard-old

requests

Технический архив запросов на тестирование моделей в знаменитом Open LLM Leaderboard. Здесь собрана история заявок, статусы проверок и отчеты об ошибках, что делает его ценным ресурсом для анализа развития рынка языковых моделей. Полезен разработчикам для отслеживания прогресса и понимания критериев оценки топовых LLM.

431.8K загрузокподробнее →

time-series-forecastingSalesforce

GiftEvalPretrain

Гигантский набор данных от Salesforce для предобучения моделей прогнозирования временных рядов, включающий 230 миллиардов точек данных. Он охватывает самые разные домены и частоты, обеспечивая чистоту экспериментов без риска утечки данных (data leakage). Это мощная база для создания точных предиктивных систем в финансах, логистике и науке.

418.5K загрузокподробнее →

AquaV

genshin-voices-separated

Коллекция чистых аудиодорожек с голосами персонажей из популярной игры Genshin Impact, очищенных от фонового шума и музыки. Датасет идеально подходит для обучения моделей синтеза речи (TTS) и клонирования голоса с сохранением уникальных интонаций. Настоящая находка для разработчиков мультимедийного контента и исследователей в области обработки звука.

401.9K загрузокподробнее →

roboticsnvidia

PhysicalAI-Robotics-GR00T-X-Embodiment-Sim

Флагманский набор данных от Nvidia, созданный для обучения универсальных человекоподобных роботов GR00T N1. Он содержит тысячи траекторий движений, включая сложные манипуляции двумя руками, что позволяет ИИ адаптироваться к разным физическим воплощениям в симуляции. Это маст-хэв инструмент для тех, кто хочет научить роботов взаимодействовать с миром на человеческом уровне.

401.3K загрузокподробнее →

Ответы на вопросыcais

mmlu

Золотой стандарт для проверки «интеллекта» языковых моделей, охватывающий 57 предметов от элементарной математики до юриспруденции и этики. Этот массив многовариантных вопросов помогает разработчикам понять, насколько нейросеть способна к многозадачности и обладает ли она общими знаниями о мире. Если вы создаете LLM, этот тест станет для неё самым суровым и честным экзаменом.

379.2K загрузокподробнее →

показано 24 из 989