mock_sobes
← Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)
junior theory #1003
Какие ограничения аппаратного обеспечения (например, лимиты памяти GPU) могут непосредственно влиять на выбор стратегии батчинга в Ollama? Как это влияет на баланс между throughput и latency?
Чтобы решить вопрос и сохранить попытку — войди.