Яндекс Метрика
Языковая модель

MADLAD-400 10B

Google DeepMind,Google Research
Машинный перевод

MADLAD-400 10B — это масштабная ИИ-модель от Google, созданная для качественного машинного перевода между 450+ языками. Нейросеть обучена на колоссальном наборе данных, что делает её одной из самых универсальных лингвистических систем в мире.

We introduce MADLAD-400, a manually audited, general domain 3T token monolingual dataset based on CommonCrawl, spanning 419 languages. We discuss the limitations revealed by self-auditing MADLAD-400, and the role data auditing had in the dataset creation process. We then train and release a 10.7B-parameter multilingual machine translation model on 250 billion tokens covering over 450 languages using publicly available data, and find that it is competitive with models that are significantly larger, and report the results on different domains. In addition, we train a 8B-parameter language model, and assess the results on few-shot translation. We make the baseline models available to the research community.

Что такое MADLAD-400 10B?+
Кто разработал MADLAD-400 10B?+
Какие задачи решает MADLAD-400 10B?+