Teuken 7B: Мультиязычная ИИ-модель для Европы

Q: Кто разработал Teuken 7B?

Модель Teuken 7B разработана компанией OpenGPT-X,Fraunhofer Institute for Algorithms and Scientific Computing,Forschungszentrum Julich,Technische Universität Dresden (Germany,Germany,Germany,Germany).

Q: Какие задачи решает Teuken 7B?

Генерация текста, Ответы на вопросы

// задачи

Генерация текстаОтветы на вопросы

// описание

Teuken 7B — это амбициозная языковая модель, созданная для поддержки лингвистического разнообразия Европы. Этот ИИ обучен на 24 официальных языках ЕС, предлагая высокую точность генерации текста и ответов на вопросы за пределами англоязычного сегмента.

// abstract

We present two multilingual LLMs, Teuken 7B-base and Teuken 7B-instruct, designed to embrace Europe's linguistic diversity by supporting all 24 official languages of the European Union. Trained on a dataset comprising around 60% non-English data and utilizing a custom multilingual tokenizer, our models address the limitations of existing LLMs that predominantly focus on English or a few high-resource languages. We detail the models' development principles, i.e., data composition, tokenizer optimization, and training methodologies. The models demonstrate strong performance across multilingual benchmarks, as evidenced by their performance on European versions of ARC, HellaSwag, and TruthfulQA.

// faq

Что такое Teuken 7B?+

Кто разработал Teuken 7B?+

Какие задачи решает Teuken 7B?+

// похожие модели