← все темы
Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)
llm-serving-engines
🎴 Пройти квиз22 вопросов
-
junior theory Представьте, что вы используете vLLM для обработки нескольких запросов одновременно. Как изменится throughput системы при увеличении размера KV-cache, если бат…
-
junior theory При использовании TGI (Text Generation Inference) с batching, как система может обрабатывать ситуации, когда один из запросов в батче вызывает ошибку (например…
-
middle theory Представьте, что вы настраиваете TGI для обработки запросов с высокой частотой. Какие метрики вы бы использовали для профилирования производительности, и как и…
-
senior theory Как бы вы сравнили подходы к **prefill** и **decode** стадий в разных движках (например, vLLM vs TGI)? Какие архитектурные решения позволяют достичь высокого t…
-
senior theory Как вы бы диагностировали проблему с утечкой GPU-памяти в SGLang при обработке множества параллельных запросов? Опишите подходы к профилированию, инструменты и…
-
senior theory Какой trade-off возникает при увеличении размера батча в Ollama при фиксированной длине контекста? Как это влияет на throughput, latency и использование GPU-па…
-
senior theory Как вы бы обеспечили масштабируемость TGI при обработке 1000+ запросов в секунду с разной длиной контекста? Опишите, какие архитектурные решения (например, sha…
-
middle theory Как бы вы диагностировали проблему с резким падением throughput в vLLM при обработке 100+ параллельных запросов? Опишите шаги по анализу, возможные причины (на…
-
middle theory Как бы вы сравнили подходы к **priority-based batching** в TGI и SGLang? Какие сценарии (например, критически важные запросы vs обычные) могут выиграть от этог…
-
junior theory Как бы вы оценили влияние разнообразия длины контекста (context length) на эффективность использования KV-cache в vLLM? Какие стратегии могут быть применены дл…
-
junior theory Представьте, что в системе на основе SGLang возникает долгий запрос, который блокирует ресурсы. Какие механизмы могут быть использованы для ограничения влияния…
-
junior theory Какие ограничения аппаратного обеспечения (например, лимиты памяти GPU) могут непосредственно влиять на выбор стратегии батчинга в Ollama? Как это влияет на ба…
-
middle quiz Какой из следующих факторов наиболее критичен для достижения высокого throughput в SGLang при обработке запросов с разной длиной контекста?
-
middle quiz Какой из следующих механизмов в vLLM может привести к ухудшению latency при высокой нагрузке?
-
middle quiz Какой из следующих факторов может привести к нестабильной производительности в TGI при высоком уровне параллелизма?
-
middle quiz Какой из следующих подходов в Ollama может помочь уменьшить количество утечек памяти при обработке большого количества запросов?
-
middle quiz Какой из следующих факторов может привести к снижению throughput в vLLM при использовании большого количества параллельных запросов?
-
middle quiz Какой из следующих механизмов может быть использован для уменьшения влияния долгих запросов на общую производительность в SGLang?
-
middle quiz Какой из следующих факторов может привести к ухудшению latency при использовании TGI с высокой частотой запросов?
-
middle quiz Какой из следующих факторов может быть причиной резкого падения throughput в vLLM при высокой нагрузке?
-
middle quiz Какой из следующих подходов может быть использован для оптимизации KV-cache в SGLang при высокой нагрузке?
-
middle quiz Какой из следующих факторов может привести к нестабильной работе в Ollama при высоком уровне параллелизма?