Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)

При использовании TGI (Text Generation Inference) с batching, как система может обрабатывать ситуации, когда один из запросов в батче вызывает ошибку (например, некорректный input)? Опишите, какие failure modes могут возникнуть и как они влияют на обработку остальных запросов в батче.