dots.llm1: Эффективная MoE-модель от Rednote

Q: Кто разработал dots.llm1?

Модель dots.llm1 разработана компанией Rednote (China).

Q: Какие задачи решает dots.llm1?

Генерация текста, Ответы на вопросы

// задачи

Генерация текстаОтветы на вопросы

// описание

Модель dots.llm1 использует архитектуру Mixture of Experts (MoE), активируя всего 14 млрд параметров из 142 млрд для каждого запроса. Такой подход позволяет этому ИИ достигать производительности флагманских моделей, значительно снижая затраты на обучение и инференс.

// abstract

Mixture of Experts (MoE) models have emerged as a promising paradigm for scaling language models efficiently by activating only a subset of parameters for each input token. In this report, we present dots.llm1, a large-scale MoE model that activates 14B parameters out of a total of 142B parameters, delivering performance on par with state-of-the-art models while reducing training and inference costs. Leveraging our meticulously crafted and efficient data processing pipeline, dots.llm1 achieves performance comparable to Qwen2.5-72B after pretraining on 11.2T high-quality tokens and post-training to fully unlock its capabilities. Notably, no synthetic data is used during pretraining. To foster further research, we open-source intermediate training checkpoints at every one trillion tokens, providing valuable insights into the learning dynamics of large language models.

// faq

Что такое dots.llm1?+

Кто разработал dots.llm1?+

Какие задачи решает dots.llm1?+

// похожие модели