Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)

Представьте, что вы используете vLLM для обработки нескольких запросов одновременно. Как изменится throughput системы при увеличении размера KV-cache, если батчи запросов остаются одинакового размера? Объясните, какие trade-offs возникают при этом и как они влияют на выбор размера KV-cache в реальных сценариях.