← все темы

Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)

llm-serving-engines

🎴 Пройти квиз

Фильтры:

все junior middle senior staff

theory mcq code design debug eli5 case correct_vs_wrong code_explain quiz

13 вопросов

middle theory Представьте, что вы настраиваете TGI для обработки запросов с высокой частотой. Какие метрики вы бы использовали для профилирования производительности, и как и…
middle theory Как бы вы диагностировали проблему с резким падением throughput в vLLM при обработке 100+ параллельных запросов? Опишите шаги по анализу, возможные причины (на…
middle theory Как бы вы сравнили подходы к **priority-based batching** в TGI и SGLang? Какие сценарии (например, критически важные запросы vs обычные) могут выиграть от этог…
middle quiz Какой из следующих факторов наиболее критичен для достижения высокого throughput в SGLang при обработке запросов с разной длиной контекста?
middle quiz Какой из следующих механизмов в vLLM может привести к ухудшению latency при высокой нагрузке?
middle quiz Какой из следующих факторов может привести к нестабильной производительности в TGI при высоком уровне параллелизма?
middle quiz Какой из следующих подходов в Ollama может помочь уменьшить количество утечек памяти при обработке большого количества запросов?
middle quiz Какой из следующих факторов может привести к снижению throughput в vLLM при использовании большого количества параллельных запросов?
middle quiz Какой из следующих механизмов может быть использован для уменьшения влияния долгих запросов на общую производительность в SGLang?
middle quiz Какой из следующих факторов может привести к ухудшению latency при использовании TGI с высокой частотой запросов?
middle quiz Какой из следующих факторов может быть причиной резкого падения throughput в vLLM при высокой нагрузке?
middle quiz Какой из следующих подходов может быть использован для оптимизации KV-cache в SGLang при высокой нагрузке?
middle quiz Какой из следующих факторов может привести к нестабильной работе в Ollama при высоком уровне параллелизма?