AI — Prompt Engineering (промпт-инжиниринг)

Представьте, что вы разрабатываете систему, где LLM должен обрабатывать запросы в реальном времени с жёсткими ограничениями по latency. Как вы будете балансировать между точностью prompt engineering и производительностью? Приведите пример trade-off, который можно реализовать на практике.