mock_sobes
← Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)
middle theory #988
Как бы вы диагностировали проблему с резким падением throughput в vLLM при обработке 100+ параллельных запросов? Опишите шаги по анализу, возможные причины (например, contention в GPU или неэффективное использование потоков) и методы решения.
Чтобы решить вопрос и сохранить попытку — войди.