AI инфраструктура — vLLM / Triton / Ollama

Представьте, что вы разрабатываете систему с vLLM для обработки нескольких сотен запросов в секунду. Какие конкретные trade-offs вы должны учитывать при выборе между увеличением размера кэша (cache size) и оптимизацией использования памяти (memory efficiency)? Приведите примеры, как это может повлиять на latency и throughput.