Яндекс Метрика
Инференс

vLLM

UC BerkeleyPython73.1K

Высокопроизводительный движок инференса LLM. PagedAttention, continuous batching, поддержка десятков моделей. Используется для деплоя LLM в продакшене.