mock_sobes
← AI инфраструктура — vLLM / Triton / Ollama
senior theory #807
Объясни vLLM PagedAttention и continuous batching. Как KV-cache хранится в страницах, сколько памяти нужно (формула), что такое prefix sharing. Continuous batching vs static batching — где throughput выигрывает. Дай математику для batch size и token throughput на A100/H100.
Чтобы решить вопрос и сохранить попытку — войди.