mock_sobes
← Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)
senior theory #952
Как бы вы сравнили подходы к **prefill** и **decode** стадий в разных движках (например, vLLM vs TGI)? Какие архитектурные решения позволяют достичь высокого throughput при одновременной обработке множества запросов с разной длиной контекста?
Чтобы решить вопрос и сохранить попытку — войди.