Подтемы
AI-ассистенты для разработки (Claude Code, Cursor, Copilot)
18 вопр.
AI — общая оценка (Evaluation)
14 вопр.
AI инфраструктура — vLLM / Triton / Ollama
14 вопр.
AI — LangChain / LlamaIndex (фреймворки для LLM-приложений)
16 вопр.
AI — LLM APIs (OpenAI, Anthropic, Mistral и т.п.)
27 вопр.
AI — LLM Fundamentals
29 вопр.
AI — MCP (Model Context Protocol, протокол интеграции LLM)
16 вопр.
AI — Prompt Engineering (промпт-инжиниринг)
18 вопр.
AI — RAG (Retrieval-Augmented Generation)
42 вопр.
AI — безопасность (Safety)
16 вопр.
AI — Structured Output (JSON-schema, retry-pattern)
17 вопр.
AI — Vector DBs (векторные БД: Pinecone/Qdrant/Weaviate)
15 вопр.
KServe — model serving на Kubernetes
14 вопр.
Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)
22 вопр.
MLOps Platform — Kubeflow, MLflow, MinIO
14 вопр.
MLOps — полный жизненный цикл ML (data→train→deploy→monitor→retrain)
20 вопр.
Rasa — диалоговые боты и NLU
16 вопр.
vLLM — high-throughput LLM inference
14 вопр.
112 вопросов
-
junior theory Что такое контекстное окно LLM и почему его размер не «бесплатный»?
-
middle theory Чем отличаются параметры temperature и top-p (nucleus sampling), и когда какой использовать?
-
middle theory Опиши полный RAG-пайплайн: от документов до ответа. Какие компоненты, где «дорого», где обычно теряется качество?
-
middle theory Объясните, в чём разница между fine-tuning и prompt engineering как способами адаптации LLM под конкретные задачи. Приведите примеры сценариев, где один подход…
-
middle theory Как работает механизм внимания (attention) в трансформерах? Как его архитектура влияет на способность LLM обрабатывать длинные последовательности?
-
middle theory Какие факторы влияют на вероятность генерации релевантного ответа LLM? Объясните, как изменение числа heads в multi-head attention влияет на качество вывода.
-
senior theory Объясните, как разные подходы к масштабированию LLM (например, model parallelism vs. pipeline parallelism) влияют на производительность и сложность реализации.…
-
senior theory Объясните, как работает механизм 'sparse attention' в LLM, и в чём его преимущества и недостатки по сравнению с 'full attention'. Приведите примеры, где он мож…
-
senior theory Объясните, как различные стратегии 'prompt engineering' (например, chain-of-thought vs. few-shot prompting) влияют на способность LLM к обобщению и устойчивост…
-
middle theory Объясни, как выбор размера чанков (chunk size) влияет на точность и полноту RAG-системы. Приведи примеры, когда крупные чанки могут ухудшить результаты, а мелк…
-
middle theory Как RAG-система может обрабатывать противоречивую информацию в источниках? Опиши стратегии, которые позволяют модели выбирать наиболее достоверный источник, и …
-
middle theory Какие архитектурные решения в RAG позволяют масштабировать систему при увеличении объёма документов? Опиши, как изменяются требования к хранению, вычислениям и…
-
senior theory Объясни, как выбор стратегии ретриева (dense vs. sparse vs. hybrid) влияет на производительность и точность RAG-системы в контексте больших документов. Приведи…
-
senior theory Как RAG-система может обрабатывать противоречия между источниками, если один документ утверждает A, а другой — B? Опиши архитектурные решения, которые позволяю…
-
senior theory Какие архитектурные решения позволяют RAG-системе масштабироваться на миллионы документов без потери производительности? Объясни, как индексация, кэширование и…
-
middle theory Как получить от LLM структурированный JSON надёжно? Сравни подходы: просто prompt → response_format → JSON schema → function calling → constrained decoding.
-
middle theory Что нужно знать про токены и context window при работе с LLM API? Как считать стоимость, как обрезать контекст, что такое prompt caching?
-
middle theory Опиши архитектуру Rasa: что такое **Rasa NLU** и **Rasa Core**, что такое intent / entity, какие бывают **dialogue policies**. Чем Rasa отличается от «голого» …
-
middle theory В Rasa есть **stories**, **rules** и **forms**. Чем они отличаются, когда что использовать? Приведи короткий пример yml для каждого.
-
senior theory Что такое **custom actions** в Rasa, как они запускаются? Как интегрировать бота с внешним REST API (например, проверить остаток на счёте)? Какие best practice…
-
senior theory В каких случаях имеет смысл выбрать Rasa, а в каких — LLM-only решение (Claude / GPT с tool calling)? Можно ли их совмещать? Опиши гибридную архитектуру.
-
senior theory Что такое **Kubeflow Pipelines**? Из чего состоит pipeline, как описывается step, как обеспечивается воспроизводимость. Чем отличается от Airflow?
-
middle theory Из каких компонентов состоит **MLflow** (tracking / projects / models / registry)? Как организовать **model registry** с этапами (Staging → Production)? Как ML…
-
middle theory Зачем в MLOps-платформе **MinIO**? Почему S3-совместимое хранилище — стандарт для артефактов? Какие особенности конфигурации (versioning, lifecycle, multipart …
-
senior theory Что такое **PagedAttention** и почему vLLM значительно быстрее наивного HuggingFace Transformers `model.generate()`? Объясни как PagedAttention управляет KV-ca…
-
senior theory Объясни **continuous batching** в vLLM (чем отличается от static batching) и **prefix caching**. Когда они дают наибольший выигрыш? Как настраивается?
-
senior theory Что такое **tensor parallelism** в vLLM, как настраивается, чем отличается от **pipeline parallelism**? Посчитай: можно ли запустить Llama-3-70B (bf16) на 2× A…
-
senior theory Что такое KServe (бывший KFServing)? Какую нишу он занимает относительно vLLM, Triton, TorchServe, Ray Serve? Когда KServe — правильный выбор?
-
senior theory Расскажи про InferenceService CRD, scale-to-zero, GPU sharing и проблему cold-start для LLM endpoint'ов в KServe. Как с этим жить в продакшене?
-
staff theory Сравни KServe vs Ray Serve vs Triton vs использование vLLM напрямую за nginx/FastAPI. По каким осям выбираем? Дай матрицу и рекомендации для AI Platform универ…
-
middle theory Представьте, что вы разрабатываете систему, где LLM должен обрабатывать запросы в реальном времени с жёсткими ограничениями по latency. Как вы будете балансиро…
-
middle theory Какие failure modes могут возникнуть при использовании prompt engineering в многоязычных системах? Опишите стратегию, которая позволяет уменьшить вероятность о…
-
middle theory Представьте, что вы разрабатываете систему, которая использует LLM API для генерации текста в реальном времени. Какие trade-offs вы должны учесть при выборе ме…
-
middle theory Какие конкретные failure modes могут возникнуть при работе с LLM API, и какие стратегии вы бы предложили для их обработки без потери данных или ухудшения польз…
-
middle theory Представьте, что вы работаете с векторной базой данных, где требуется поддерживать высокую точность поиска векторов при масштабировании. Какие trade-offs между…
-
middle theory Какие edge cases могут возникнуть при работе с векторной базой данных при обработке нестандартных данных, например, разреженных векторов или векторов с динамич…
-
middle theory Представьте, что вы разрабатываете систему, где критично минимизировать количество запросов к LLM. Объясните, как LangChain и LlamaIndex могут быть использован…
-
middle theory Как вы бы обработали ситуацию, когда LLM возвращает некорректные ответы в пайплайне, построенном с использованием LlamaIndex? Опишите подходы для обнаружения о…
-
senior theory Какой должна быть структура production runbook'а? Что в него попадает, а что нет. Чем runbook отличается от документации архитектуры.
-
senior theory Что такое blameless postmortem? Как его писать чтобы был полезен. 5 Whys vs Causal Analysis based on Systems Theory (CAST) — когда что.
-
senior theory Напишите Airflow DAG для daily-retrain ML-модели: extract → train → eval → deploy. Как отлаживать DAG локально? Что такое idempotency в context'е DAG'ов?
-
senior theory Чем Dagster отличается от Airflow? Когда что выбрать. Software-defined assets, type-checking, partitions.
-
middle theory Как использовать MLflow Tracking + Model Registry для production-pipeline'а? Стадии (None/Staging/Production/Archived), promotion-процесс, A/B testing.
-
middle theory Представьте, что вы применяете MCP (Model Compression and Pruning) к крупной нейросети для развертывания на устройствах с ограниченными ресурсами. Какие конкре…
-
middle theory Какие failure modes могут возникнуть при неправильной настройке гиперпараметров MCP (например, уровня прунирования или степени квантования), и как их можно диа…
-
middle theory Какие потенциальные failure modes могут возникнуть при оценке модели на данных с несбалансированными классами, и как их можно компенсировать без изменения метр…
-
middle theory Какие trade-offs возникают при выборе между использованием синтетических данных и реальных данных для оценки модели в production-сценариях, и как это влияет на…
-
middle theory Представьте, что вы разрабатываете систему с vLLM для обработки нескольких сотен запросов в секунду. Какие конкретные trade-offs вы должны учитывать при выборе…
-
middle theory Какие конкретные failure modes могут возникнуть при масштабировании Triton Inference Server с использованием GPU-кластера? Опишите, как можно диагностировать и…
-
middle theory Представьте, что вы разрабатываете систему, которая использует ИИ для принятия критических решений (например, в медицине или автономных транспортных средствах)…
-
middle theory Как вы бы оценили риски, связанные с использованием ИИ в системах с высокими ставками (например, финансовые алгоритмы), если у вас нет возможности полностью пр…
-
middle theory Что такое CLAUDE.md / .cursorrules / project context для AI-ассистентов? Какие правила писать. Примеры что работает / не работает.
-
senior theory У тебя корпус: 60% Markdown-документация, 30% PDF-руководств с таблицами, 10% — Python-репозиторий (~150k файлов кода). Нужно подобрать chunking-стратегию для …
-
senior theory Объясни, как ты построишь hybrid search (BM25 + dense embeddings). Сравни Reciprocal Rank Fusion и weighted-score fusion: какие проблемы решает RRF, и в каких …
-
senior theory Сравни bi-encoder, cross-encoder и ColBERT (late interaction) для reranking. Когда применять каждый, какова латентность, как добавить MMR для diversity. Расска…
-
senior theory Как ты построишь pipeline, который минимизирует галлюцинации в RAG-ответах? Покрой: grounded answering (отвечать только из контекста), цитирование, confidence …
-
senior theory Context window — 200k токенов. Расскажи, как ты планируешь token budget для RAG-системы: sysprompt, retrieved chunks, history, answer reserve. Когда применять …
-
senior theory Расскажи про три уровня кэша в RAG: embedding cache, query cache, semantic cache. Какие cache-keys, какая инвалидация при обновлении индекса, какие риски (stal…
-
senior theory Сравни pre-filter vs post-filter для metadata filtering в HNSW. Почему «HNSW + сильная фильтрация» — проблема, и как её решают современные vector store (Qdrant…
-
senior theory Как ты построишь evaluation для RAG: retrieval-метрики (Recall@K, MRR, nDCG) и generation-метрики (faithfulness, answer relevance, RAGAS). Сравни golden set vs…
-
senior theory Как выбрать embedding-модель? Сравни text-embedding-3-large vs ada-002 vs E5/BGE по dim, качеству, цене. Когда стоит fine-tune embedding на домен, что даёт qua…
-
senior theory Объясни параметры HNSW: M, efConstruction, efSearch. Как каждый влияет на recall, build time, query latency и memory. Дай таблицу типичных значений для разных …
-
senior theory Объясни IVF (Inverted File) и Product Quantization для масштаба миллиардов векторов. Как они работают вместе (IVF-PQ), какой trade-off recall/memory/latency. С…
-
senior theory Расскажи про RAGAS-метрики: faithfulness, context_precision, context_recall, answer_relevancy. Как считаются, какие пороги в проде, что значит "не сошлось". Гд…
-
senior theory Объясни vLLM PagedAttention и continuous batching. Как KV-cache хранится в страницах, сколько памяти нужно (формула), что такое prefix sharing. Continuous batc…
-
middle theory Вы разрабатываете систему, где prompt engineering используется для генерации ответов на запросы, требующие **многошагового рассуждения** (например, решение зад…
-
senior theory Как вы бы решили проблему **overfitting** в системе, где LLM генерирует ответы на основе пользовательских запросов с помощью prompt engineering?
-
middle theory Написать о стратегиях обслуживания отказов (retry-pattern) для получения структурированного JSON от LLM. Какие варианты есть и когда их использовать?
-
middle theory Написать о методах тестирования и профилирования стратегий обслуживания отказов для получения структурированного JSON от LLM. Какие инструменты можно использовать?
-
middle theory Опишите, как вы бы протестировали MCP (Model Context Protocol) в реальном проекте. Какие методы профилирования и отладки вы бы использовали для оценки эффектив…
-
senior theory Вы разрабатываете распределенную систему на основе MCP, где модели LLM хранятся в cloud и вызываются через API. Однако при масштабировании системы вы сталкивае…
-
senior theory Расскажите, как LangChain и LlamaIndex можно использовать для реализации системы с мониторингом и анализом контента на основе метрик и правил. Опишите подходы …
-
junior theory Представьте, что ваша модель в production начала давать некорректные прогнозы. Какие 3 шага вы бы предприняли для диагностики проблемы, учитывая этапы жизненно…
-
junior theory Какой минимальный набор инструментов вы бы внедрили на этапе 'deploy', чтобы обеспечить устойчивость системы при сбое модели? Объясните, как каждый инструмент …
-
senior theory Как вы бы спроектировали систему автоматического запуска переобучения (retraining pipeline) для модели, работающей в production с высокой частотой обновления д…
-
junior theory Представьте, что вы используете vLLM для обработки нескольких запросов одновременно. Как изменится throughput системы при увеличении размера KV-cache, если бат…
-
junior theory При использовании TGI (Text Generation Inference) с batching, как система может обрабатывать ситуации, когда один из запросов в батче вызывает ошибку (например…
-
middle theory Представьте, что вы настраиваете TGI для обработки запросов с высокой частотой. Какие метрики вы бы использовали для профилирования производительности, и как и…
-
senior theory Как бы вы сравнили подходы к **prefill** и **decode** стадий в разных движках (например, vLLM vs TGI)? Какие архитектурные решения позволяют достичь высокого t…
-
senior theory Представьте, что ваша система использует LLM API для критически важной задачи, где ошибка модели может привести к значительным последствиям (например, в медици…
-
senior theory Как бы вы спроектировали систему мониторинга и логирования для LLM API в масштабируемой архитектуре, где требуется отслеживать не только успешные запросы, но и…
-
senior theory Какие архитектурные решения вы бы внедрили для обеспечения отказоустойчивости системы, использующей LLM API, если API-провайдер внезапно прекратит работу или и…
-
senior theory Как вы бы спроектировали **механизм отката (rollback)** для ИИ-системы, если её выводы начнут систематически отклоняться от ожидаемого поведения (например, в с…
-
senior theory Как вы бы обеспечили **устойчивость ИИ-системы к манипуляциям** со стороны злоумышленников, которые могут вводить в неё данные с целью изменения её поведения (…
-
senior theory При использовании JSON-schema для структурированного вывода LLM возникает проблема частичной валидации (например, часть полей валидна, часть нет). Как обработа…
-
senior theory Как обеспечить отказоустойчивость в системе, где LLM генерирует JSON по сложной схеме с вложенными объектами и массивами? Какие стратегии retry-pattern и инстр…
-
senior theory Как вы бы диагностировали проблему с утечкой GPU-памяти в SGLang при обработке множества параллельных запросов? Опишите подходы к профилированию, инструменты и…
-
senior theory Какой trade-off возникает при увеличении размера батча в Ollama при фиксированной длине контекста? Как это влияет на throughput, latency и использование GPU-па…
-
senior theory Как вы бы обеспечили масштабируемость TGI при обработке 1000+ запросов в секунду с разной длиной контекста? Опишите, какие архитектурные решения (например, sha…
-
middle theory Как бы вы диагностировали проблему с резким падением throughput в vLLM при обработке 100+ параллельных запросов? Опишите шаги по анализу, возможные причины (на…
-
middle theory Как бы вы сравнили подходы к **priority-based batching** в TGI и SGLang? Какие сценарии (например, критически важные запросы vs обычные) могут выиграть от этог…
-
senior theory Представьте, что ваша система в production сталкивается с резким увеличением объема входных данных. Как вы бы спроектировали масштабируемую архитектуру для эта…
-
senior theory Как вы бы протестировали pipeline 'train → deploy' в production, чтобы убедиться, что модель не теряет точность при переходе из dev-среды в production? Опишите…
-
senior theory Как вы бы спроектировали систему для автоматического rollback модели в production, если после deployment она начинает давать некорректные прогнозы? Опишите, ка…
-
middle theory Представьте, что вы внедряете систему мониторинга для модели с высокоразмерным выходом (например, генеративной модели). Какие 3 ключевых аспекта вы бы учитывал…
-
middle theory Как вы бы спроектировали систему автоматического переключения между версиями моделей в production, если новая версия начинает показывать ухудшение метрик на те…
-
middle theory Как вы бы обработали сценарий, когда данные в production содержат аномалии, которые не были учтены при обучении модели, но не нарушают формат входных данных? К…
-
junior theory Как бы вы оценили влияние разнообразия длины контекста (context length) на эффективность использования KV-cache в vLLM? Какие стратегии могут быть применены дл…
-
junior theory Представьте, что в системе на основе SGLang возникает долгий запрос, который блокирует ресурсы. Какие механизмы могут быть использованы для ограничения влияния…
-
junior theory Какие ограничения аппаратного обеспечения (например, лимиты памяти GPU) могут непосредственно влиять на выбор стратегии батчинга в Ollama? Как это влияет на ба…
-
middle theory LLM Prompt Injection Prevention Cheat Sheet. Опишите основные риски и рекомендуемые меры защиты (по OWASP Cheat Sheet Series).
-
middle theory MCP (Model Context Protocol) Security Cheat Sheet. Опишите основные риски и рекомендуемые меры защиты (по OWASP Cheat Sheet Series).
-
middle theory Retrieval-Augmented Generation (RAG) Security Cheat Sheet. Опишите основные риски и рекомендуемые меры защиты (по OWASP Cheat Sheet Series).
-
middle theory Secure AI/ML Model Ops Cheat Sheet. Опишите основные риски и рекомендуемые меры защиты (по OWASP Cheat Sheet Series).
-
middle theory Secure Coding with AI Cheat Sheet. Опишите основные риски и рекомендуемые меры защиты (по OWASP Cheat Sheet Series).
-
senior theory Какие стратегии вы бы применили для **resilience** и **fault tolerance** при использовании LLM API в системе с высокой доступностью, если API провайдер внезапн…
-
senior theory Какие методы вы бы использовали для **profiling** и **debugging** вызовов к LLM API в продакшн-среде, особенно если вы наблюдаете неожиданное поведение модели …
-
senior theory Какие **edge cases** вы бы учли при **testing** LLM API интеграций, особенно если вы используете **prompt engineering** и **few-shot learning**? Какие сценарии…
-
senior theory Какие **trade-offs** вы бы рассмотрели при использовании **caching** для ответов от LLM API, особенно если вы работаете с **personalized content** и **real-tim…
-
senior theory Какие **anti-patterns** вы бы выявили при использовании LLM API в production-среде, если система не использует **rate limiting** или **token budgeting**? Какие…
-
senior theory Какие стратегии вы бы применили для управления **prompt injection** атаками при использовании LLM API в production-среде? Какие техники вы бы внедрили для обес…
-
senior theory Как бы вы реализовали **fallback mechanism** для LLM API, если основной провайдер (например, OpenAI) недоступен или возвращает ошибки? Какие условия вы бы испо…