Расскажи про InferenceService CRD, scale-to-zero, GPU sharing и проблему cold-start для LLM endpoint'ов в KServe. Как с этим жить в продакшене?