mock_sobes

← все темы

Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)

llm-serving-engines

🎴 Пройти квиз

Фильтры:

все junior middle senior staff

·

theory mcq code design debug eli5 case correct_vs_wrong code_explain quiz

4 вопросов

senior theory Как бы вы сравнили подходы к **prefill** и **decode** стадий в разных движках (например, vLLM vs TGI)? Какие архитектурные решения позволяют достичь высокого t…
senior theory Как вы бы диагностировали проблему с утечкой GPU-памяти в SGLang при обработке множества параллельных запросов? Опишите подходы к профилированию, инструменты и…
senior theory Какой trade-off возникает при увеличении размера батча в Ollama при фиксированной длине контекста? Как это влияет на throughput, latency и использование GPU-па…
senior theory Как вы бы обеспечили масштабируемость TGI при обработке 1000+ запросов в секунду с разной длиной контекста? Опишите, какие архитектурные решения (например, sha…