mock_sobes
← Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)
middle theory #951
Представьте, что вы настраиваете TGI для обработки запросов с высокой частотой. Какие метрики вы бы использовали для профилирования производительности, и как изменение параметров, таких как размер батча или количество потоков, может повлиять на эти метрики?
Чтобы решить вопрос и сохранить попытку — войди.