mock_sobes
← vLLM — high-throughput LLM inference
senior theory #362
Что такое **tensor parallelism** в vLLM, как настраивается, чем отличается от **pipeline parallelism**? Посчитай: можно ли запустить Llama-3-70B (bf16) на 2× A100-80GB при контексте 8k и параллельных запросах? Покажи арифметику KV-cache.
Чтобы решить вопрос и сохранить попытку — войди.