Подтемы
AI-ассистенты для разработки (Claude Code, Cursor, Copilot)
18 вопр.
AI — общая оценка (Evaluation)
14 вопр.
AI инфраструктура — vLLM / Triton / Ollama
14 вопр.
AI — LangChain / LlamaIndex (фреймворки для LLM-приложений)
16 вопр.
AI — LLM APIs (OpenAI, Anthropic, Mistral и т.п.)
27 вопр.
AI — LLM Fundamentals
29 вопр.
AI — MCP (Model Context Protocol, протокол интеграции LLM)
16 вопр.
AI — Prompt Engineering (промпт-инжиниринг)
18 вопр.
AI — RAG (Retrieval-Augmented Generation)
42 вопр.
AI — безопасность (Safety)
16 вопр.
AI — Structured Output (JSON-schema, retry-pattern)
17 вопр.
AI — Vector DBs (векторные БД: Pinecone/Qdrant/Weaviate)
15 вопр.
KServe — model serving на Kubernetes
14 вопр.
Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)
22 вопр.
MLOps Platform — Kubeflow, MLflow, MinIO
14 вопр.
MLOps — полный жизненный цикл ML (data→train→deploy→monitor→retrain)
20 вопр.
Rasa — диалоговые боты и NLU
16 вопр.
vLLM — high-throughput LLM inference
14 вопр.
67 вопросов
-
senior design Тебе на проде нужно сократить количество галлюцинаций в LLM-ответах (ассистент по документации компании). Какие техники применишь и в каком порядке?
-
senior design Тебе нужно построить RAG-ассистента по внутренней документации компании (~50k страниц, обновляется). Ассистент должен **обязательно цитировать источники** и **…
-
senior theory Объясните, как разные подходы к масштабированию LLM (например, model parallelism vs. pipeline parallelism) влияют на производительность и сложность реализации.…
-
senior theory Объясните, как работает механизм 'sparse attention' в LLM, и в чём его преимущества и недостатки по сравнению с 'full attention'. Приведите примеры, где он мож…
-
senior theory Объясните, как различные стратегии 'prompt engineering' (например, chain-of-thought vs. few-shot prompting) влияют на способность LLM к обобщению и устойчивост…
-
senior theory Объясни, как выбор стратегии ретриева (dense vs. sparse vs. hybrid) влияет на производительность и точность RAG-системы в контексте больших документов. Приведи…
-
senior theory Как RAG-система может обрабатывать противоречия между источниками, если один документ утверждает A, а другой — B? Опиши архитектурные решения, которые позволяю…
-
senior theory Какие архитектурные решения позволяют RAG-системе масштабироваться на миллионы документов без потери производительности? Объясни, как индексация, кэширование и…
-
senior theory Что такое **custom actions** в Rasa, как они запускаются? Как интегрировать бота с внешним REST API (например, проверить остаток на счёте)? Какие best practice…
-
senior theory В каких случаях имеет смысл выбрать Rasa, а в каких — LLM-only решение (Claude / GPT с tool calling)? Можно ли их совмещать? Опиши гибридную архитектуру.
-
senior theory Что такое **Kubeflow Pipelines**? Из чего состоит pipeline, как описывается step, как обеспечивается воспроизводимость. Чем отличается от Airflow?
-
senior design Спроектируй ML-pipeline в k8s, который полностью **воспроизводимо** делает: ingest данных → preprocess → train → eval → register → deploy в serving (vLLM / KSe…
-
senior theory Что такое **PagedAttention** и почему vLLM значительно быстрее наивного HuggingFace Transformers `model.generate()`? Объясни как PagedAttention управляет KV-ca…
-
senior theory Объясни **continuous batching** в vLLM (чем отличается от static batching) и **prefix caching**. Когда они дают наибольший выигрыш? Как настраивается?
-
senior theory Что такое **tensor parallelism** в vLLM, как настраивается, чем отличается от **pipeline parallelism**? Посчитай: можно ли запустить Llama-3-70B (bf16) на 2× A…
-
senior theory Что такое KServe (бывший KFServing)? Какую нишу он занимает относительно vLLM, Triton, TorchServe, Ray Serve? Когда KServe — правильный выбор?
-
senior theory Расскажи про InferenceService CRD, scale-to-zero, GPU sharing и проблему cold-start для LLM endpoint'ов в KServe. Как с этим жить в продакшене?
-
senior design Спроектируй KServe-деплоймент для production LLM endpoint с canary rollout новой версии модели: 10% трафика на v2, метрики качества и latency, автоматический r…
-
senior theory Какой должна быть структура production runbook'а? Что в него попадает, а что нет. Чем runbook отличается от документации архитектуры.
-
senior theory Что такое blameless postmortem? Как его писать чтобы был полезен. 5 Whys vs Causal Analysis based on Systems Theory (CAST) — когда что.
-
senior theory Напишите Airflow DAG для daily-retrain ML-модели: extract → train → eval → deploy. Как отлаживать DAG локально? Что такое idempotency в context'е DAG'ов?
-
senior theory Чем Dagster отличается от Airflow? Когда что выбрать. Software-defined assets, type-checking, partitions.
-
senior case AI-ассистент написал «работающий» PR с тестами. Что обязательно проверить? Где AI чаще всего ошибается.
-
senior theory У тебя корпус: 60% Markdown-документация, 30% PDF-руководств с таблицами, 10% — Python-репозиторий (~150k файлов кода). Нужно подобрать chunking-стратегию для …
-
senior design Корпус 5M документов, embedding в Qdrant (HNSW). 200k документов в день меняются/удаляются, embedding пересчёт стоит ~$1.2/1M токенов. Спроектируй стратегию об…
-
senior theory Объясни, как ты построишь hybrid search (BM25 + dense embeddings). Сравни Reciprocal Rank Fusion и weighted-score fusion: какие проблемы решает RRF, и в каких …
-
senior theory Сравни bi-encoder, cross-encoder и ColBERT (late interaction) для reranking. Когда применять каждый, какова латентность, как добавить MMR для diversity. Расска…
-
senior design Спроектируй memory-слой для LLM-ассистента (chat-помощник, multi-turn, 50 пользователей, средняя сессия 30 turns). Разнеси short-term, episodic, semantic memor…
-
senior design Multi-tenant RAG: 200 клиентов, у каждого свой корпус (1k–500k документов), нужна изоляция и невозможность data leak. Сравни «collection per tenant» vs «shared…
-
senior design Корпоративный RAG. Документы имеют ACL (user/group, можно отозвать). Запрос пользователя не должен «процитировать» документ, к которому у него нет доступа. Сра…
-
senior theory Как ты построишь pipeline, который минимизирует галлюцинации в RAG-ответах? Покрой: grounded answering (отвечать только из контекста), цитирование, confidence …
-
senior theory Context window — 200k токенов. Расскажи, как ты планируешь token budget для RAG-системы: sysprompt, retrieved chunks, history, answer reserve. Когда применять …
-
senior design У тебя SLA на RAG: 3 секунды p95 от запроса до окончания streaming. Расскажи, как ты распределишь latency budget по стадиям, что делать параллельно, как cascad…
-
senior theory Расскажи про три уровня кэша в RAG: embedding cache, query cache, semantic cache. Какие cache-keys, какая инвалидация при обновлении индекса, какие риски (stal…
-
senior design Спроектируй SSE-стриминг ответа RAG: токены идут постепенно, но citations должны быть «привязаны» к фрагментам ответа и появляться на UI **до или одновременно*…
-
senior theory Сравни pre-filter vs post-filter для metadata filtering в HNSW. Почему «HNSW + сильная фильтрация» — проблема, и как её решают современные vector store (Qdrant…
-
senior theory Как ты построишь evaluation для RAG: retrieval-метрики (Recall@K, MRR, nDCG) и generation-метрики (faithfulness, answer relevance, RAGAS). Сравни golden set vs…
-
senior theory Как выбрать embedding-модель? Сравни text-embedding-3-large vs ada-002 vs E5/BGE по dim, качеству, цене. Когда стоит fine-tune embedding на домен, что даёт qua…
-
senior theory Объясни параметры HNSW: M, efConstruction, efSearch. Как каждый влияет на recall, build time, query latency и memory. Дай таблицу типичных значений для разных …
-
senior theory Объясни IVF (Inverted File) и Product Quantization для масштаба миллиардов векторов. Как они работают вместе (IVF-PQ), какой trade-off recall/memory/latency. С…
-
senior theory Расскажи про RAGAS-метрики: faithfulness, context_precision, context_recall, answer_relevancy. Как считаются, какие пороги в проде, что значит "не сошлось". Гд…
-
senior theory Объясни vLLM PagedAttention и continuous batching. Как KV-cache хранится в страницах, сколько памяти нужно (формула), что такое prefix sharing. Continuous batc…
-
senior theory Как вы бы решили проблему **overfitting** в системе, где LLM генерирует ответы на основе пользовательских запросов с помощью prompt engineering?
-
senior theory Вы разрабатываете распределенную систему на основе MCP, где модели LLM хранятся в cloud и вызываются через API. Однако при масштабировании системы вы сталкивае…
-
senior theory Расскажите, как LangChain и LlamaIndex можно использовать для реализации системы с мониторингом и анализом контента на основе метрик и правил. Опишите подходы …
-
senior theory Как вы бы спроектировали систему автоматического запуска переобучения (retraining pipeline) для модели, работающей в production с высокой частотой обновления д…
-
senior theory Как бы вы сравнили подходы к **prefill** и **decode** стадий в разных движках (например, vLLM vs TGI)? Какие архитектурные решения позволяют достичь высокого t…
-
senior theory Представьте, что ваша система использует LLM API для критически важной задачи, где ошибка модели может привести к значительным последствиям (например, в медици…
-
senior theory Как бы вы спроектировали систему мониторинга и логирования для LLM API в масштабируемой архитектуре, где требуется отслеживать не только успешные запросы, но и…
-
senior theory Какие архитектурные решения вы бы внедрили для обеспечения отказоустойчивости системы, использующей LLM API, если API-провайдер внезапно прекратит работу или и…
-
senior theory Как вы бы спроектировали **механизм отката (rollback)** для ИИ-системы, если её выводы начнут систематически отклоняться от ожидаемого поведения (например, в с…
-
senior theory Как вы бы обеспечили **устойчивость ИИ-системы к манипуляциям** со стороны злоумышленников, которые могут вводить в неё данные с целью изменения её поведения (…
-
senior theory При использовании JSON-schema для структурированного вывода LLM возникает проблема частичной валидации (например, часть полей валидна, часть нет). Как обработа…
-
senior theory Как обеспечить отказоустойчивость в системе, где LLM генерирует JSON по сложной схеме с вложенными объектами и массивами? Какие стратегии retry-pattern и инстр…
-
senior theory Как вы бы диагностировали проблему с утечкой GPU-памяти в SGLang при обработке множества параллельных запросов? Опишите подходы к профилированию, инструменты и…
-
senior theory Какой trade-off возникает при увеличении размера батча в Ollama при фиксированной длине контекста? Как это влияет на throughput, latency и использование GPU-па…
-
senior theory Как вы бы обеспечили масштабируемость TGI при обработке 1000+ запросов в секунду с разной длиной контекста? Опишите, какие архитектурные решения (например, sha…
-
senior theory Представьте, что ваша система в production сталкивается с резким увеличением объема входных данных. Как вы бы спроектировали масштабируемую архитектуру для эта…
-
senior theory Как вы бы протестировали pipeline 'train → deploy' в production, чтобы убедиться, что модель не теряет точность при переходе из dev-среды в production? Опишите…
-
senior theory Как вы бы спроектировали систему для автоматического rollback модели в production, если после deployment она начинает давать некорректные прогнозы? Опишите, ка…
-
senior theory Какие стратегии вы бы применили для **resilience** и **fault tolerance** при использовании LLM API в системе с высокой доступностью, если API провайдер внезапн…
-
senior theory Какие методы вы бы использовали для **profiling** и **debugging** вызовов к LLM API в продакшн-среде, особенно если вы наблюдаете неожиданное поведение модели …
-
senior theory Какие **edge cases** вы бы учли при **testing** LLM API интеграций, особенно если вы используете **prompt engineering** и **few-shot learning**? Какие сценарии…
-
senior theory Какие **trade-offs** вы бы рассмотрели при использовании **caching** для ответов от LLM API, особенно если вы работаете с **personalized content** и **real-tim…
-
senior theory Какие **anti-patterns** вы бы выявили при использовании LLM API в production-среде, если система не использует **rate limiting** или **token budgeting**? Какие…
-
senior theory Какие стратегии вы бы применили для управления **prompt injection** атаками при использовании LLM API в production-среде? Какие техники вы бы внедрили для обес…
-
senior theory Как бы вы реализовали **fallback mechanism** для LLM API, если основной провайдер (например, OpenAI) недоступен или возвращает ошибки? Какие условия вы бы испо…