mock_sobes
← vLLM — high-throughput LLM inference
senior theory #361
Объясни **continuous batching** в vLLM (чем отличается от static batching) и **prefix caching**. Когда они дают наибольший выигрыш? Как настраивается?
Чтобы решить вопрос и сохранить попытку — войди.