mock_sobes
← AI — RAG (Retrieval-Augmented Generation)
senior design #728
У тебя SLA на RAG: 3 секунды p95 от запроса до окончания streaming. Расскажи, как ты распределишь latency budget по стадиям, что делать параллельно, как cascading дешёвых моделей помогает, и где async streaming retrieval даёт выигрыш.
Чтобы решить вопрос и сохранить попытку — войди.