vLLM — high-throughput LLM inference

Что такое **tensor parallelism** в vLLM, как настраивается, чем отличается от **pipeline parallelism**? Посчитай: можно ли запустить Llama-3-70B (bf16) на 2× A100-80GB при контексте 8k и параллельных запросах? Покажи арифметику KV-cache.