Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)

Какие ограничения аппаратного обеспечения (например, лимиты памяти GPU) могут непосредственно влиять на выбор стратегии батчинга в Ollama? Как это влияет на баланс между throughput и latency?