Как вы бы обеспечили масштабируемость TGI при обработке 1000+ запросов в секунду с разной длиной контекста? Опишите, какие архитектурные решения (например, sharding KV-cache, pipelining, offloading) могут быть использованы и как они влияют на latency и fault tolerance.
senior
theory
#987
Чтобы решить вопрос и сохранить попытку — войди.