mock_sobes
← Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)
junior theory #1002
Представьте, что в системе на основе SGLang возникает долгий запрос, который блокирует ресурсы. Какие механизмы могут быть использованы для ограничения влияния такого запроса на другие активные задачи, и какие trade-offs возникают при этом?
Чтобы решить вопрос и сохранить попытку — войди.