AI — MCP (Model Context Protocol, протокол интеграции LLM)

Вы разрабатываете распределенную систему на основе MCP, где модели LLM хранятся в cloud и вызываются через API. Однако при масштабировании системы вы сталкиваетесь с проблемой «cold start», когда новая модель не может сразу отвечать на запросы из-за отсутствия контекста. Как бы вы оптимизировали систему для уменьшения времени cold start, рассматривая trade-offs между точностью модели и производительностью системы?