Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)

Как бы вы оценили влияние разнообразия длины контекста (context length) на эффективность использования KV-cache в vLLM? Какие стратегии могут быть применены для минимизации потерь в throughput при обработке запросов с сильно различающимися длиной контекста?