AI — RAG (Retrieval-Augmented Generation)

У тебя SLA на RAG: 3 секунды p95 от запроса до окончания streaming. Расскажи, как ты распределишь latency budget по стадиям, что делать параллельно, как cascading дешёвых моделей помогает, и где async streaming retrieval даёт выигрыш.