KServe — model serving на Kubernetes

mock_sobes

senior theory #386

Расскажи про InferenceService CRD, scale-to-zero, GPU sharing и проблему cold-start для LLM endpoint'ов в KServe. Как с этим жить в продакшене?

Чтобы решить вопрос и сохранить попытку — войди.