AI агенты (общая, Agents)

Как вы бы спроектировали архитектуру **масштабируемого AI-агента**, способного обрабатывать миллионы запросов в секунду, при этом сохраняя **состояние** и **контекст** для каждого пользователя? Какие компромиссы (trade-offs) вы бы приняли при выборе между **горизонтальным** и **вертикальным** масштабированием в этом случае?