mock_sobes
← KServe — model serving на Kubernetes
senior theory #386
Расскажи про InferenceService CRD, scale-to-zero, GPU sharing и проблему cold-start для LLM endpoint'ов в KServe. Как с этим жить в продакшене?
Чтобы решить вопрос и сохранить попытку — войди.