19 вопросов
-
senior design Тебе нужно построить RAG-ассистента по внутренней документации компании (~50k страниц, обновляется). Ассистент должен **обязательно цитировать источники** и **…
-
senior theory Объясни, как выбор стратегии ретриева (dense vs. sparse vs. hybrid) влияет на производительность и точность RAG-системы в контексте больших документов. Приведи…
-
senior theory Как RAG-система может обрабатывать противоречия между источниками, если один документ утверждает A, а другой — B? Опиши архитектурные решения, которые позволяю…
-
senior theory Какие архитектурные решения позволяют RAG-системе масштабироваться на миллионы документов без потери производительности? Объясни, как индексация, кэширование и…
-
senior theory У тебя корпус: 60% Markdown-документация, 30% PDF-руководств с таблицами, 10% — Python-репозиторий (~150k файлов кода). Нужно подобрать chunking-стратегию для …
-
senior design Корпус 5M документов, embedding в Qdrant (HNSW). 200k документов в день меняются/удаляются, embedding пересчёт стоит ~$1.2/1M токенов. Спроектируй стратегию об…
-
senior theory Объясни, как ты построишь hybrid search (BM25 + dense embeddings). Сравни Reciprocal Rank Fusion и weighted-score fusion: какие проблемы решает RRF, и в каких …
-
senior theory Сравни bi-encoder, cross-encoder и ColBERT (late interaction) для reranking. Когда применять каждый, какова латентность, как добавить MMR для diversity. Расска…
-
senior design Спроектируй memory-слой для LLM-ассистента (chat-помощник, multi-turn, 50 пользователей, средняя сессия 30 turns). Разнеси short-term, episodic, semantic memor…
-
senior design Multi-tenant RAG: 200 клиентов, у каждого свой корпус (1k–500k документов), нужна изоляция и невозможность data leak. Сравни «collection per tenant» vs «shared…
-
senior design Корпоративный RAG. Документы имеют ACL (user/group, можно отозвать). Запрос пользователя не должен «процитировать» документ, к которому у него нет доступа. Сра…
-
senior theory Как ты построишь pipeline, который минимизирует галлюцинации в RAG-ответах? Покрой: grounded answering (отвечать только из контекста), цитирование, confidence …
-
senior theory Context window — 200k токенов. Расскажи, как ты планируешь token budget для RAG-системы: sysprompt, retrieved chunks, history, answer reserve. Когда применять …
-
senior design У тебя SLA на RAG: 3 секунды p95 от запроса до окончания streaming. Расскажи, как ты распределишь latency budget по стадиям, что делать параллельно, как cascad…
-
senior theory Расскажи про три уровня кэша в RAG: embedding cache, query cache, semantic cache. Какие cache-keys, какая инвалидация при обновлении индекса, какие риски (stal…
-
senior design Спроектируй SSE-стриминг ответа RAG: токены идут постепенно, но citations должны быть «привязаны» к фрагментам ответа и появляться на UI **до или одновременно*…
-
senior theory Сравни pre-filter vs post-filter для metadata filtering в HNSW. Почему «HNSW + сильная фильтрация» — проблема, и как её решают современные vector store (Qdrant…
-
senior theory Как ты построишь evaluation для RAG: retrieval-метрики (Recall@K, MRR, nDCG) и generation-метрики (faithfulness, answer relevance, RAGAS). Сравни golden set vs…
-
senior theory Как выбрать embedding-модель? Сравни text-embedding-3-large vs ada-002 vs E5/BGE по dim, качеству, цене. Когда стоит fine-tune embedding на домен, что даёт qua…