Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)

middle quiz #3439

Какой из следующих подходов может быть использован для оптимизации KV-cache в SGLang при высокой нагрузке?

Чтобы решить вопрос и сохранить попытку — войди.