Яндекс Метрика
Языковая модель

OLMoE

Allen Institute for AI,Contextual AI,University of Washington,Princeton University
Генерация текстаЧат-бот

OLMoE — это полностью открытая языковая модель на базе архитектуры Sparse Mixture-of-Experts, задающая новые стандарты эффективности. При общем объеме в 7 млрд параметров она задействует лишь 1 млрд на каждый токен, обходя по производительности даже такие популярные нейросети, как Llama2-13B.

We introduce OLMoE, a fully open, state-of-the-art language model leveraging sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but uses only 1B per input token. We pretrain it on 5 trillion tokens and further adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available models with similar active parameters, even surpassing larger ones like Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE training, analyze routing in our model showing high specialization, and open-source all aspects of our work: model weights, training data, code, and logs.

Что такое OLMoE?+
Кто разработал OLMoE?+
Какие задачи решает OLMoE?+