Как бы вы оценили влияние разнообразия длины контекста (context length) на эффективность использования KV-cache в vLLM? Какие стратегии могут быть применены для минимизации потерь в throughput при обработке запросов с сильно различающимися длиной контекста?
junior
theory
#1001
Чтобы решить вопрос и сохранить попытку — войди.