mock_sobes
← AI инфраструктура — vLLM / Triton / Ollama
middle theory #539
Представьте, что вы разрабатываете систему с vLLM для обработки нескольких сотен запросов в секунду. Какие конкретные trade-offs вы должны учитывать при выборе между увеличением размера кэша (cache size) и оптимизацией использования памяти (memory efficiency)? Приведите примеры, как это может повлиять на latency и throughput.
Чтобы решить вопрос и сохранить попытку — войди.