// описание
Настоящий гигант в мире данных — колоссальный очищенный корпус веб-страниц, на котором тренировались легендарные модели вроде T5. Здесь собраны миллиарды токенов из интернета, тщательно отфильтрованные от мусора и дублей, что делает его «золотым стандартом» для обучения языковых моделей пониманию естественного языка.