Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)

mock_sobes

middle quiz #3435

Какой из следующих факторов может привести к снижению throughput в vLLM при использовании большого количества параллельных запросов?

Чтобы решить вопрос и сохранить попытку — войди.