mock_sobes

← все темы

vLLM — high-throughput LLM inference

vllm-inference

🎴 Пройти квиз

Фильтры:

все junior middle senior staff

·

theory mcq code design debug eli5 case correct_vs_wrong code_explain quiz

3 вопросов

senior theory Что такое **PagedAttention** и почему vLLM значительно быстрее наивного HuggingFace Transformers `model.generate()`? Объясни как PagedAttention управляет KV-ca…
senior theory Объясни **continuous batching** в vLLM (чем отличается от static batching) и **prefix caching**. Когда они дают наибольший выигрыш? Как настраивается?
senior theory Что такое **tensor parallelism** в vLLM, как настраивается, чем отличается от **pipeline parallelism**? Посчитай: можно ли запустить Llama-3-70B (bf16) на 2× A…