// описание
Колоссальный мультиязычный корпус текстов, охватывающий 419 языков, включая редкие и малоресурсные наречия. Данные собраны из Common Crawl на уровне целых документов, что обеспечивает высокое качество контекста для обучения глобальных LLM. Идеальный фундамент для создания переводчиков и моделей, способных понимать культурное многообразие мира.