Яндекс Метрика

// каталог датасетов

Датасеты для машинного обучения: описание, задачи, статистика загрузок.

Классификация текстаKakologArchives
KakologArchives
Уникальный цифровой слепок японской интернет-культуры, содержащий 11 лет «живых» комментариев с сервиса NicoNico Jikkyo. Этот архив — настоящая сокровищница для NLP-исследователей, позволяющая изучать эволюцию сленга и эмоциональные реакции пользователей в реальном времени. Датасет был бережно собран сообществом после закрытия старой платформы, чтобы сохранить исторический контекст для будущих моделей.
huggingface
documentation-images
Практичный набор данных, включающий в себя все визуальные ассеты и иллюстрации из официальной документации Hugging Face. Он идеально подходит для обучения моделей распознаванию технических интерфейсов, графиков и структур документации. Если вы строите ИИ-помощника для разработчиков, этот визуальный контекст будет просто незаменим.
Классификация текстаm-a-p
FineFineWeb
Высококачественный веб-корпус с глубокой доменной сегментацией, созданный для тех, кто ценит чистоту данных при обучении LLM. Благодаря детальной разбивке по тематикам, датасет помогает моделям лучше ориентироваться в узкоспециализированных областях и выдавать более точные ответы. Это отличная альтернатива «шумным» дампам, ориентированная на качество и понимание контекста.
hf-doc-build
doc-build
Полное текстовое собрание всей документации Hugging Face, структурированное и готовое к обработке. Это базовый ресурс для создания RAG-систем или специализированных чат-ботов, которые должны знать библиотеки HF как свои пять пальцев. Весь накопленный опыт главного ИИ-сообщества планеты теперь доступен в одном месте для дообучения ваших моделей.
banned-historical-archives
banned-historical-archives
Редкий архив исторических документов, газет и изображений, многие из которых труднодоступны или подвергаются цензуре. Датасет представляет огромную ценность для обучения моделей анализу архивных данных и пониманию сложных политических и социальных контекстов. Это важный инструмент для исследователей, стремящихся сохранить цифровую историю и объективность данных.
video-classificationropedia-ai
xperience-10m
Масштабный набор данных, созданный для обучения ИИ пониманию человеческого опыта через видео. Он фокусируется на интерактивном интеллекте и классификации действий, позволяя моделям лучше интерпретировать сложное поведение людей. Идеальный выбор для тех, кто строит системы компьютерного зрения с глубоким пониманием контекста.
image-to-3dtasl-lab
uniocc
Унифицированный бенчмарк для прогнозирования занятости пространства (occupancy) в задачах беспилотного вождения. Он избавляет исследователей от мучений с несовместимыми форматами данных, сводя популярные датасеты к единому стандарту. Идеальный инструмент для тех, кто обучает ИИ «видеть» и предсказывать 3D-сцену вокруг автомобиля в реальном времени.
Jsinowitz
snodas-snowmelt-cache
Специализированный кэш данных системы SNODAS, сфокусированный на моделировании процессов таяния снега. Набор незаменим для гидрологов и разработчиков климатических моделей, которым нужны точные исторические показатели состояния снежного покрова. Он значительно ускоряет анализ динамики водных ресурсов, избавляя от необходимости прямой выгрузки из тяжелых государственных архивов.
Rebabit0v0
parity-experiments
Технический репозиторий, содержащий логи экспериментов Oracle и Parity для различных адаптеров нейросетей. Датасет структурирован для удобного сравнения производительности и интерпретации результатов тонкой настройки моделей. Полезен разработчикам, которые занимаются оптимизацией архитектур и хотят систематизировать данные своих тестов в едином формате.
princeton-nlp
SWE-bench_Verified
Элитная подборка из 500 задач с GitHub, прошедших строгую ручную проверку экспертами для оценки качества ИИ-разработчиков. В отличие от сырых данных, этот бенчмарк гарантирует корректность условий, проверяя реальную способность моделей исправлять баги в коде. Если вы создаете ИИ-агента для программной инженерии, это самый честный и надежный «экзамен» на рынке.
Генерация текстаopenai
gsm8k
Легендарный набор из 8500 математических задач школьного уровня, ставший золотым стандартом для обучения языковых моделей логике. Он заставляет ИИ не просто угадывать ответ, а выстраивать многоступенчатую цепочку рассуждений. Must-have датасет для всех, кто хочет прокачать навыки логического мышления и математического вывода у своих LLM.
lavita
medical-qa-shared-task-v1-toy
Компактный тренировочный датасет для создания медицинских ИИ-помощников, содержащий пары вопросов и ответов. Он идеально подходит для быстрой отладки моделей и прототипирования систем, которые должны понимать сложную врачебную терминологию. Несмотря на приставку «toy», это отличная база для старта в области медицинского NLP.
Генерация текстаallenai
c4
Настоящий гигант в мире данных — колоссальный очищенный корпус веб-страниц, на котором тренировались легендарные модели вроде T5. Здесь собраны миллиарды токенов из интернета, тщательно отфильтрованные от мусора и дублей, что делает его «золотым стандартом» для обучения языковых моделей пониманию естественного языка.
Генерация текстаepfml
FineWeb-HQ
Элитная выборка из FineWeb, в которую попали только самые качественные и структурированные документы, отобранные нейросетевым классификатором. Этот датасет представляет собой концентрат знаний, позволяющий обучать модели эффективнее за счет высокой плотности полезной информации. Если вам нужен «чистый разум» для вашей LLM, то FineWeb-HQ — лучший выбор.
Заполнение пропусковNaveen0501
dlgenai-nppe-dataset
Специализированный набор данных, заточенный под задачи заполнения пропусков (Fill-Mask) в контексте глубокого обучения и генеративного ИИ. Он помогает моделям лучше улавливать структуру технических текстов и логические связи в сложных предложениях. Незаменимый инструмент для тех, кто занимается тонкой настройкой трансформеров под узкие ниши.
Kthera
pesoz
Лаконичный, но крайне популярный датасет, который часто используют для специфических задач дообучения и калибровки моделей. Он помогает ИИ лучше адаптироваться к нюансам естественной речи и редким паттернам, которые сложно найти в гигантских общедоступных корпусах. Отличный выбор для тех, кто ищет «секретный ингредиент» для улучшения качества генерации текста.
builddotai
Egocentric-100K
Крупнейший в своем роде набор данных, запечатлевший ручной труд «глазами» исполнителя для обучения ИИ-систем пониманию сложных манипуляций. Благодаря высокой плотности кадров с активным взаимодействием рук и объектов, он станет идеальной базой для разработки продвинутых ассистентов дополненной реальности. С этим датасетом нейросети учатся распознавать действия в реальных условиях так же четко, как это делает человек.
roboticsIPEC-COMMUNITY
language_table_lerobot
Масштабный массив данных для обучения роботов xArm, созданный с помощью экосистемы LeRobot и включающий более 440 тысяч эпизодов. Датасет связывает текстовые команды с физическими действиями, позволяя тренировать модели на выполнение манипуляций на специальном «языковом столе». Это незаменимый ресурс для тех, кто строит будущее умной робототехники и стремится научить машины понимать человеческую речь в контексте задач.
open-llm-leaderboard-old
requests
Своеобразный «бортовой журнал» индустрии, содержащий файлы запросов на тестирование моделей в знаменитом Open LLM Leaderboard. Датасет позволяет отслеживать статус проверки нейросетей, анализировать причины сбоев и изучать историю подачи заявок от различных разработчиков. Полезный инструмент для исследователей, желающих понять динамику развития открытых языковых моделей и процесс их верификации.
time-series-forecastingSalesforce
GiftEvalPretrain
Гигантская коллекция от Salesforce для предобучения моделей прогнозирования временных рядов, содержащая внушительные 230 миллиардов точек данных. Набор охватывает 71 одномерный и 17 многомерных датасетов из разных доменов, гарантируя отсутствие утечек информации между этапами обучения и оценки. Это «топливо» высшего качества для создания универсальных ИИ-прорицателей, способных работать с любыми частотами и типами данных.
AquaV
genshin-voices-separated
Чистый и структурированный набора аудиоданных с голосами персонажей из мегапопулярной игры Genshin Impact. Датасет идеально подходит для задач синтеза речи (TTS), клонирования голоса (RVC) и других творческих экспериментов со звуком. С его помощью ваши ИИ-проекты смогут заговорить знакомыми интонациями героев Тейвата с высоким качеством разделения дорожек.
roboticsnvidia
PhysicalAI-Robotics-GR00T-X-Embodiment-Sim
Мощный набор данных от NVIDIA, содержащий траектории движений для обучения гуманоидных роботов в симуляции. Он сфокусирован на сложных манипуляциях двумя руками и помогает моделям GR00T адаптироваться к разным типам «тел» роботов. Это незаменимый ресурс для тех, кто хочет научить ИИ ловко взаимодействовать с физическим миром.
Ответы на вопросыcais
mmlu
Настоящий «золотой стандарт» для оценки эрудиции и логики больших языковых моделей, охватывающий десятки областей знаний. Датасет состоит из тысяч вопросов с вариантами ответов, проверяющих всё: от основ права до высшей математики. Если вам нужно понять, насколько умна ваша LLM в сравнении с лидерами рынка, MMLU — лучший инструмент для теста.
Классификация текстаnguha
legalbench
Специализированный бенчмарк для проверки юридического «мышления» нейросетей, собранный экспертами в области права. Он включает задачи по классификации документов, анализу контрактов и интерпретации сложных правовых норм. Идеально подходит разработчикам, которые создают ИИ-ассистентов для юристов и автоматизируют работу с документацией.
показано 24 из 899