AI инфраструктура — vLLM / Triton / Ollama

При использовании Triton Inference Server для развертывания нескольких моделей с разными требованиями к памяти, какой из следующих подходов НЕ является рекомендуемой практикой для оптимизации использования ресурсов?