Voxtral Mini — самая быстрая и легкая версия в линейке аудио-моделей от Mistral AI, предназначенная для мгновенной обработки голосовых и текстовых запросов. Этот компактный ИИ сохраняет впечатляющие аналитические способности, обеспечивая качественное взаимодействие в режиме реального времени даже на слабых устройствах.
We present Voxtral Mini and Voxtral Small, two multimodal audio chat models. Voxtral is trained to comprehend both spoken audio and text documents, achieving state-of-the-art performance across a diverse range of audio benchmarks, while preserving strong text capabilities. Voxtral Small outperforms a number of closed-source models, while being small enough to run locally. A 32K context window enables the model to handle audio files up to 40 minutes in duration and long multi-turn conversations. We also contribute three benchmarks for evaluating speech understanding models on knowledge and trivia. Both Voxtral models are released under Apache 2.0 license.