Яндекс Метрика

// каталог датасетов

Датасеты для машинного обучения: описание, задачи, статистика загрузок.

Классификация текстаKakologArchives
KakologArchives
Настоящая цифровая капсула времени: здесь собраны все комментарии японского сервиса Niconico Jikkyo за 11 лет его работы. Датасет незаменим для обучения ИИ пониманию живого разговорного японского языка, сленга и культурных контекстов той эпохи. Это бесценный ресурс для лингвистов и разработчиков NLP-моделей, работающих с азиатскими рынками.
huggingface
documentation-images
Визуальный справочник по экосистеме Hugging Face, содержащий все изображения из официальной документации библиотек. Датасет отлично подходит для обучения моделей распознаванию технических схем, интерфейсов и иллюстраций в ИИ-сфере. Если вы строите систему, которая должна «понимать» и визуализировать документацию, этот набор данных — ваш маст-хэв.
Классификация текстаm-a-p
FineFineWeb
Тщательно отобранный и структурированный веб-корпус, созданный для детального изучения различных доменных областей. Он позволяет «прокачать» языковые модели в узких темах, обеспечивая высокую точность и релевантность ответов в конкретных нишах. Это не просто кусок интернета, а качественный фундамент для обучения LLM нового поколения.
hf-doc-build
doc-build
Полное собрание знаний от Hugging Face: здесь хранится вся опубликованная документация платформы в удобном для машинной обработки формате. Набор данных идеален для создания умных ассистентов и RAG-систем, которые помогают программистам мгновенно находить ответы по коду и инструментам HF. Ваш личный справочник по экосистеме, упакованный специально для обучения нейросетей.
bluuebunny
arxiv_metadata_by_year
Удобно структурированный архив метаданных научных публикаций, распределенный по годам выпуска. Он незаменим для анализа трендов в Deep Learning, построения графов цитирований и создания умных поисковых движков по научным базам. С этим датасетом ваша модель всегда будет знать, «кто, когда и о чем» написал в мире большой науки.
banned-historical-archives
banned-historical-archives
Уникальное собрание исторических документов, газет и редких архивов, многие из которых были под запретом или труднодоступны в сети. Датасет открывает доступ к «неудобным» страницам истории и идеально подходит для обучения ИИ анализу архивных текстов и распознаванию старых документов. Незаменимый ресурс для тех, кто строит глубокие модели на стыке истории, политологии и технологий.
video-classificationropedia-ai
xperience-10m
Масштабный набор данных, сфокусированный на «человеческом опыте» и интерактивном интеллекте для задач классификации видео. Он помогает нейросетям лучше понимать сложные человеческие действия и контекст взаимодействия в реальном мире. Это незаменимый ресурс для создания ИИ-агентов, способных интерпретировать динамические сцены с высокой точностью.
image-to-3dtasl-lab
uniocc
Настоящий подарок для разработчиков беспилотников, уставших от «зоопарка» форматов данных. UniOcc объединяет популярные бенчмарки для прогнозирования занятости пространства (occupancy forecasting) в единый стандарт. С его помощью можно эффективно обучать системы компьютерного зрения для автопилотов, не тратя время на бесконечную предобработку.
Jsinowitz
snodas-snowmelt-cache
Специализированный набор данных, ориентированный на анализ таяния снега на основе системы SNODAS. Он содержит важные гидрологические показатели, которые необходимы для экологического мониторинга и прогнозирования паводков. Идеальный инструмент для исследователей, работающих на стыке ML и климатологии.
Rebabit0v0
parity-experiments
Технический датасет, созданный для систематизации логов и результатов экспериментов с адаптерами (PEFT). Он помогает исследователям сравнивать показатели Oracle и Parity, обеспечивая прозрачность при дообучении нейросетей. Полезный ресурс для тех, кто занимается тонкой настройкой моделей и хочет держать все метрики под контролем.
princeton-nlp
SWE-bench_Verified
«Золотая» выборка из 500 задач, проверенная вручную для оценки способности ИИ решать реальные проблемы в программном коде. В отличие от стандартных тестов, здесь исключены ошибки в самих заданиях, что делает его идеальным бенчмарком для автономных ИИ-агентов и кодинг-ассистентов. Если ваш агент прошел этот тест, он действительно готов к работе с GitHub.
Генерация текстаopenai
gsm8k
Легендарный набор из 8,5 тысяч математических задач уровня начальной школы, на которых проверяется логика современных LLM. Датасет требует от модели не просто угадать ответ, а выстроить цепочку многошаговых рассуждений. Это главный стандарт для оценки навыков Reasoning и способности нейросети к решению базовых арифметических задач.
lavita
medical-qa-shared-task-v1-toy
Компактный ознакомительный набор данных, содержащий пары «вопрос-ответ» на медицинскую тематику. Он идеально подходит для быстрой отладки пайплайнов и тестирования прототипов медицинских чат-ботов перед переходом на «тяжелые» веса. С этим датасетом ваша модель научится понимать специфическую терминологию без лишних затрат на вычислительные ресурсы.
Генерация текстаallenai
c4
Настоящий титан в мире NLP — колоссальная, очищенная версия веб-корпуса Common Crawl, на которой обучались легендарные модели вроде T5. Датасет содержит сотни гигабайт качественного текста, что делает его незаменимым фундаментом для претрейнинга любых языковых моделей. Если вам нужен масштаб и разнообразие человеческого языка, C4 — это база.
Генерация текстаepfml
FineWeb-HQ
Элитная выборка из FineWeb, куда попали только самые информативные и структурированные документы, отобранные с помощью нейросетевого классификатора. Этот датасет нацелен на повышение «интеллекта» моделей, отсекая информационный шум и оставляя только знания с высокой плотностью. Идеальный выбор для тех, кто делает ставку на качество данных, а не на их сырой объем.
Заполнение пропусковNaveen0501
dlgenai-nppe-dataset
Специализированный датасет, ориентированный на задачи заполнения пропусков (Fill-Mask) и дообучение генеративных моделей. Он помогает алгоритмам лучше улавливать контекстуальные связи и восстанавливать логику внутри предложений. Отличное подспорье для разработчиков, работающих над улучшением языковой интуиции своих ИИ-агентов.
Kthera
pesoz
Популярный в сообществе набор данных, который часто используется для тонкой настройки и валидации моделей в специфических сценариях. Несмотря на лаконичность, он зарекомендовал себя как эффективный инструмент для калибровки ответов нейросетей. Подойдет исследователям, которым нужны проверенные данные для финальной полировки своих алгоритмов.
builddotai
Egocentric-100K
Крупнейший в своем роде набор данных, запечатлевший ручной труд «глазами» исполнителя. Датасет предлагает высочайшую плотность кадров с активным взаимодействием рук, что делает его маст-хэв решением для обучения систем дополненной реальности и роботов-помощников.
roboticsIPEC-COMMUNITY
language_table_lerobot
Масштабная база данных для обучения роботов-манипуляторов xArm, созданная с помощью фреймворка LeRobot. Она содержит более 440 тысяч эпизодов взаимодействия, помогая ИИ-агентам учиться выполнять сложные физические задачи, ориентируясь на текстовые инструкции.
open-llm-leaderboard-old
requests
Своеобразный «бэклог» индустрии, содержащий файлы запросов на тестирование моделей в Open LLM Leaderboard. Датасет полезен для анализа динамики развития нейросетей и отслеживания того, какие архитектуры чаще всего отправляются на проверку сообществом.
time-series-forecastingSalesforce
GiftEvalPretrain
Монументальный набор данных от Salesforce для прогнозирования временных рядов, включающий 230 миллиардов точек. Благодаря охвату семи различных доменов и отсутствию утечек данных, это идеальный фундамент для создания универсальных предсказательных моделей.
AquaV
genshin-voices-separated
Специализированный аудио-датасет, содержащий чистые голоса персонажей из игры Genshin Impact, отделенные от фоновой музыки. Отлично подходит для обучения моделей синтеза речи (TTS), создания голосовых клонов или фанатской озвучки с помощью ИИ.
roboticsnvidia
PhysicalAI-Robotics-GR00T-X-Embodiment-Sim
Мощный набор данных от NVIDIA, созданный для постобучения роботов GR00T и отработки сложных манипуляций двумя руками. Он содержит тысячи траекторий движений в симуляции, которые помогают ИИ-агентам адаптироваться к разным физическим телам. Это маст-хэв для разработчиков, стремящихся наделить роботов ловкостью и универсальностью.
Ответы на вопросыcais
mmlu
Золотой стандарт для проверки «интеллекта» языковых моделей, охватывающий 57 предметов от гуманитарных наук до высшей математики. Датасет состоит из тысяч вопросов с вариантами ответов, которые тестируют не только знания, но и логику модели. Если вы хотите узнать, насколько ваша LLM готова к реальному миру, прогоните её через этот бенчмарк.
показано 24 из 949