Яндекс Метрика
Языковая модель

Typhoon 2.1 Gemma 4B

Typhoon / SCB 10X
Генерация текстаОтветы на вопросыКоличественные рассужденияГенерация кодаМашинный перевод

Компактная языковая модель, оптимизированная для работы с тайским языком на базе архитектуры Gemma 3. Несмотря на малый размер, этот ИИ поддерживает контекст до 128K и умеет вызывать внешние функции. Отличное решение для локализованных чат-ботов и быстрого перевода с высокой скоростью работы.

Typhoon2.1-Gemma3-4B is a instruct Thai 🇹🇭 large language model with 4 billion parameters, a 128K context length, and function-calling capabilities. It is based on Gemma3 4B. To build Typhoon 2.1 (Gemma3-based), we introduced a new approach that combines fine-tuning, model merging techniques from Typhoon 2 R1, and reinforcement learning (RL) fine-tuning—details to be shared in an upcoming paper. We began by using supervised fine-tuning (SFT) and merging to align the model with Thai-specific preferences, applying a curated subset of post-training recipes from Typhoon 2. This made the model more controllable and better suited to Thai use cases. Once we achieved strong instruction-following in Thai, we applied RL fine-tuning to correct merging artifacts and train the model to perform controllable long-thought processes.

Что такое Typhoon 2.1 Gemma 4B?+
Кто разработал Typhoon 2.1 Gemma 4B?+
Какие задачи решает Typhoon 2.1 Gemma 4B?+