mock_sobes
← Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)
middle theory #989
Как бы вы сравнили подходы к **priority-based batching** в TGI и SGLang? Какие сценарии (например, критически важные запросы vs обычные) могут выиграть от этого, и какие trade-offs возникают при настройке приоритетов?
Чтобы решить вопрос и сохранить попытку — войди.