AI — LLM APIs (OpenAI, Anthropic, Mistral и т.п.)

При использовании LLM API в системе с высокой нагрузкой, какой из следующих подходов наиболее эффективен для снижения затрат на токены и улучшения производительности, и почему?