mock_sobes
← Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)
senior theory #986
Какой trade-off возникает при увеличении размера батча в Ollama при фиксированной длине контекста? Как это влияет на throughput, latency и использование GPU-памяти? Приведите примеры, когда увеличение батча может ухудшить производительность.
Чтобы решить вопрос и сохранить попытку — войди.