Какой из следующих подходов наиболее эффективен для уменьшения времени отклика LLM при высокой нагрузке?