У тебя SLA на RAG: 3 секунды p95 от запроса до окончания streaming. Расскажи, как ты
распределишь latency budget по стадиям, что делать параллельно, как cascading дешёвых
моделей помогает, и где async streaming retrieval даёт выигрыш.
senior
design
#728
Чтобы решить вопрос и сохранить попытку — войди.