mock_sobes
← Локальный инференс LLM — vLLM / SGLang / Ollama / TGI (throughput, KV-cache, batching)
senior theory #985
Как вы бы диагностировали проблему с утечкой GPU-памяти в SGLang при обработке множества параллельных запросов? Опишите подходы к профилированию, инструменты и возможные причины (например, некорректное освобождение KV-cache, утечки в копировании тензоров).
Чтобы решить вопрос и сохранить попытку — войди.