Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)

Как бы вы сравнили подходы к **priority-based batching** в TGI и SGLang? Какие сценарии (например, критически важные запросы vs обычные) могут выиграть от этого, и какие trade-offs возникают при настройке приоритетов?