mock_sobes
← Kubernetes — продвинутые темы (GPU, ресурсы, пробы, AI-deploy)
senior design #378
Спроектируй deployment **LLM inference-сервиса** в k8s: модель ~70B на vLLM, GPU H100, нужен autoscaling по нагрузке, blue-green / canary обновления, observability. Какие манифесты, какие HPA-метрики, как шарить GPU между моделями, как делать обновления без downtime.
Чтобы решить вопрос и сохранить попытку — войди.