Спроектируй deployment **LLM inference-сервиса** в k8s: модель ~70B
на vLLM, GPU H100, нужен autoscaling по нагрузке, blue-green / canary
обновления, observability. Какие манифесты, какие HPA-метрики, как
шарить GPU между моделями, как делать обновления без downtime.
senior
design
#378
Чтобы решить вопрос и сохранить попытку — войди.