Яндекс Метрика
Генерация текста

MADLAD-400

allenai

Колоссальный мультиязычный корпус текстов, охватывающий 419 языков, включая редкие и малоресурсные наречия. Данные собраны из Common Crawl на уровне целых документов, что обеспечивает высокое качество контекста для обучения глобальных LLM. Идеальный фундамент для создания переводчиков и моделей, способных понимать культурное многообразие мира.