Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)

Как бы вы диагностировали проблему с резким падением throughput в vLLM при обработке 100+ параллельных запросов? Опишите шаги по анализу, возможные причины (например, contention в GPU или неэффективное использование потоков) и методы решения.