Инференс

vLLM

Name: vLLM
Author: UC Berkeley

UC BerkeleyPython73.1K

// описание

Высокопроизводительный движок инференса LLM. PagedAttention, continuous batching, поддержка десятков моделей. Используется для деплоя LLM в продакшене.

← все фреймворки