Представьте, что вы используете vLLM для обработки нескольких запросов одновременно. Как изменится throughput системы при увеличении размера KV-cache, если батчи запросов остаются одинакового размера? Объясните, какие trade-offs возникают при этом и как они влияют на выбор размера KV-cache в реальных сценариях.
junior
theory
#949
Чтобы решить вопрос и сохранить попытку — войди.