14 вопросов
-
senior theory Что такое **PagedAttention** и почему vLLM значительно быстрее наивного HuggingFace Transformers `model.generate()`? Объясни как PagedAttention управляет KV-ca…
-
senior theory Объясни **continuous batching** в vLLM (чем отличается от static batching) и **prefix caching**. Когда они дают наибольший выигрыш? Как настраивается?
-
senior theory Что такое **tensor parallelism** в vLLM, как настраивается, чем отличается от **pipeline parallelism**? Посчитай: можно ли запустить Llama-3-70B (bf16) на 2× A…
-
middle mcq Какое утверждение про **vLLM** НЕВЕРНО?
-
middle quiz Какой из следующих факторов **не** влияет на производительность vLLM при обработке запросов?
-
middle quiz Что из перечисленного **не** является частью стратегии **prefix caching** в vLLM?
-
middle quiz Какой из следующих механизмов **не** используется для управления памятью в vLLM?
-
middle quiz Какой из следующих параметров **не** влияет на **latency** в vLLM?
-
middle quiz Какой из следующих подходов **не** используется для **scale-out** в vLLM?
-
middle quiz Какой из следующих механизмов **не** помогает уменьшить **memory fragmentation** в vLLM?
-
middle quiz Какой из следующих факторов **не** влияет на **throughput** vLLM?
-
middle quiz Какой из следующих механизмов **не** используется для **batching** в vLLM?
-
middle quiz Какой из следующих факторов **не** влияет на **memory usage** в vLLM?
-
middle quiz Какой из следующих механизмов **не** используется для **optimizing KV-cache** в vLLM?