← все темы

Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)

llm-serving-engines

🎴 Пройти квиз

Фильтры:

все junior middle senior staff

theory mcq code design debug eli5 case correct_vs_wrong code_explain quiz

22 вопросов

junior theory Представьте, что вы используете vLLM для обработки нескольких запросов одновременно. Как изменится throughput системы при увеличении размера KV-cache, если бат…
junior theory При использовании TGI (Text Generation Inference) с batching, как система может обрабатывать ситуации, когда один из запросов в батче вызывает ошибку (например…
middle theory Представьте, что вы настраиваете TGI для обработки запросов с высокой частотой. Какие метрики вы бы использовали для профилирования производительности, и как и…
senior theory Как бы вы сравнили подходы к **prefill** и **decode** стадий в разных движках (например, vLLM vs TGI)? Какие архитектурные решения позволяют достичь высокого t…
senior theory Как вы бы диагностировали проблему с утечкой GPU-памяти в SGLang при обработке множества параллельных запросов? Опишите подходы к профилированию, инструменты и…
senior theory Какой trade-off возникает при увеличении размера батча в Ollama при фиксированной длине контекста? Как это влияет на throughput, latency и использование GPU-па…
senior theory Как вы бы обеспечили масштабируемость TGI при обработке 1000+ запросов в секунду с разной длиной контекста? Опишите, какие архитектурные решения (например, sha…
middle theory Как бы вы диагностировали проблему с резким падением throughput в vLLM при обработке 100+ параллельных запросов? Опишите шаги по анализу, возможные причины (на…
middle theory Как бы вы сравнили подходы к **priority-based batching** в TGI и SGLang? Какие сценарии (например, критически важные запросы vs обычные) могут выиграть от этог…
junior theory Как бы вы оценили влияние разнообразия длины контекста (context length) на эффективность использования KV-cache в vLLM? Какие стратегии могут быть применены дл…
junior theory Представьте, что в системе на основе SGLang возникает долгий запрос, который блокирует ресурсы. Какие механизмы могут быть использованы для ограничения влияния…
junior theory Какие ограничения аппаратного обеспечения (например, лимиты памяти GPU) могут непосредственно влиять на выбор стратегии батчинга в Ollama? Как это влияет на ба…
middle quiz Какой из следующих факторов наиболее критичен для достижения высокого throughput в SGLang при обработке запросов с разной длиной контекста?
middle quiz Какой из следующих механизмов в vLLM может привести к ухудшению latency при высокой нагрузке?
middle quiz Какой из следующих факторов может привести к нестабильной производительности в TGI при высоком уровне параллелизма?
middle quiz Какой из следующих подходов в Ollama может помочь уменьшить количество утечек памяти при обработке большого количества запросов?
middle quiz Какой из следующих факторов может привести к снижению throughput в vLLM при использовании большого количества параллельных запросов?
middle quiz Какой из следующих механизмов может быть использован для уменьшения влияния долгих запросов на общую производительность в SGLang?
middle quiz Какой из следующих факторов может привести к ухудшению latency при использовании TGI с высокой частотой запросов?
middle quiz Какой из следующих факторов может быть причиной резкого падения throughput в vLLM при высокой нагрузке?
middle quiz Какой из следующих подходов может быть использован для оптимизации KV-cache в SGLang при высокой нагрузке?
middle quiz Какой из следующих факторов может привести к нестабильной работе в Ollama при высоком уровне параллелизма?