Компактная, но мощная языковая модель от Stability AI с 3 миллиардами параметров. StableLM-3B-4E1T обучена на колоссальном объеме в 1 триллион токенов, что позволяет этому ИИ демонстрировать высокую точность даже при скромных размерах. Отличное решение для запуска производительной нейросети на локальных устройствах.
StableLM-3B-4E1T is a 3 billion (3B) parameter language model pre-trained under the multi-epoch regime to study the impact of repeated tokens on downstream performance. Given prior success in this area (Taylor et al., 2022 and Tay et al., 2023), we train on 1 trillion (1T) tokens for 4 epochs following the observations of Muennighoff et al. (2023) in "Scaling Data-Constrained Language Models" in which they find "training with up to 4 epochs of repeated data yields negligible changes to loss compared to having unique data." Further inspiration for the token count is taken from "Go smol or go home" (De Vries, 2023), which suggests a 2.96B model trained for 2.85 trillion tokens achieves a similar loss to a Chinchilla compute-optimal 9.87B language model.