OLMoE: Открытая языковая модель на базе Sparse MoE

Q: Кто разработал OLMoE?

Модель OLMoE разработана компанией Allen Institute for AI,Contextual AI,University of Washington,Princeton University (United States of America,United States of America,United States of America,United States of America).

Q: Какие задачи решает OLMoE?

Генерация текста, Чат-бот

// задачи

Генерация текстаЧат-бот

// описание

OLMoE — это полностью открытая языковая модель на базе архитектуры Sparse Mixture-of-Experts, задающая новые стандарты эффективности. При общем объеме в 7 млрд параметров она задействует лишь 1 млрд на каждый токен, обходя по производительности даже такие популярные нейросети, как Llama2-13B.

// abstract

We introduce OLMoE, a fully open, state-of-the-art language model leveraging sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but uses only 1B per input token. We pretrain it on 5 trillion tokens and further adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available models with similar active parameters, even surpassing larger ones like Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE training, analyze routing in our model showing high specialization, and open-source all aspects of our work: model weights, training data, code, and logs.

// faq

Что такое OLMoE?+

Кто разработал OLMoE?+

Какие задачи решает OLMoE?+

// похожие модели