// описание
Высокопроизводительный движок инференса LLM. PagedAttention, continuous batching, поддержка десятков моделей. Используется для деплоя LLM в продакшене.
Высокопроизводительный движок инференса LLM. PagedAttention, continuous batching, поддержка десятков моделей. Используется для деплоя LLM в продакшене.