vLLM — high-throughput LLM inference

Что такое **PagedAttention** и почему vLLM значительно быстрее наивного HuggingFace Transformers `model.generate()`? Объясни как PagedAttention управляет KV-cache, какие проблемы решает.