Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)

Как вы бы обеспечили масштабируемость TGI при обработке 1000+ запросов в секунду с разной длиной контекста? Опишите, какие архитектурные решения (например, sharding KV-cache, pipelining, offloading) могут быть использованы и как они влияют на latency и fault tolerance.