Kubernetes — продвинутые темы (GPU, ресурсы, пробы, AI-deploy)

Спроектируй deployment **LLM inference-сервиса** в k8s: модель ~70B на vLLM, GPU H100, нужен autoscaling по нагрузке, blue-green / canary обновления, observability. Какие манифесты, какие HPA-метрики, как шарить GPU между моделями, как делать обновления без downtime.