Что такое **tensor parallelism** в vLLM, как настраивается, чем отличается
от **pipeline parallelism**? Посчитай: можно ли запустить Llama-3-70B
(bf16) на 2× A100-80GB при контексте 8k и параллельных запросах? Покажи
арифметику KV-cache.
senior
theory
#362
Чтобы решить вопрос и сохранить попытку — войди.