← все темы

vLLM — high-throughput LLM inference

vllm-inference

🎴 Пройти квиз

Фильтры:

все junior middle senior staff

theory mcq code design debug eli5 case correct_vs_wrong code_explain quiz

14 вопросов

senior theory Что такое **PagedAttention** и почему vLLM значительно быстрее наивного HuggingFace Transformers `model.generate()`? Объясни как PagedAttention управляет KV-ca…
senior theory Объясни **continuous batching** в vLLM (чем отличается от static batching) и **prefix caching**. Когда они дают наибольший выигрыш? Как настраивается?
senior theory Что такое **tensor parallelism** в vLLM, как настраивается, чем отличается от **pipeline parallelism**? Посчитай: можно ли запустить Llama-3-70B (bf16) на 2× A…
middle mcq Какое утверждение про **vLLM** НЕВЕРНО?
middle quiz Какой из следующих факторов **не** влияет на производительность vLLM при обработке запросов?
middle quiz Что из перечисленного **не** является частью стратегии **prefix caching** в vLLM?
middle quiz Какой из следующих механизмов **не** используется для управления памятью в vLLM?
middle quiz Какой из следующих параметров **не** влияет на **latency** в vLLM?
middle quiz Какой из следующих подходов **не** используется для **scale-out** в vLLM?
middle quiz Какой из следующих механизмов **не** помогает уменьшить **memory fragmentation** в vLLM?
middle quiz Какой из следующих факторов **не** влияет на **throughput** vLLM?
middle quiz Какой из следующих механизмов **не** используется для **batching** в vLLM?
middle quiz Какой из следующих факторов **не** влияет на **memory usage** в vLLM?
middle quiz Какой из следующих механизмов **не** используется для **optimizing KV-cache** в vLLM?