// описание
Настоящий титан в мире NLP — колоссальная, очищенная версия веб-корпуса Common Crawl, на которой обучались легендарные модели вроде T5. Датасет содержит сотни гигабайт качественного текста, что делает его незаменимым фундаментом для претрейнинга любых языковых моделей. Если вам нужен масштаб и разнообразие человеческого языка, C4 — это база.