AI инфраструктура — vLLM / Triton / Ollama

Какие конкретные failure modes могут возникнуть при масштабировании Triton Inference Server с использованием GPU-кластера? Опишите, как можно диагностировать и устранить проблему, если сервер начинает возвращать ошибки типа 'out of memory' при увеличении количества concurrent requests.