AI инфраструктура — vLLM / Triton / Ollama

Объясни vLLM PagedAttention и continuous batching. Как KV-cache хранится в страницах, сколько памяти нужно (формула), что такое prefix sharing. Continuous batching vs static batching — где throughput выигрывает. Дай математику для batch size и token throughput на A100/H100.