mock_sobes
← Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)
junior theory #949
Представьте, что вы используете vLLM для обработки нескольких запросов одновременно. Как изменится throughput системы при увеличении размера KV-cache, если батчи запросов остаются одинакового размера? Объясните, какие trade-offs возникают при этом и как они влияют на выбор размера KV-cache в реальных сценариях.
Чтобы решить вопрос и сохранить попытку — войди.