AI — LLM APIs (OpenAI, Anthropic, Mistral и т.п.)

Как бы вы спроектировали систему мониторинга и логирования для LLM API в масштабируемой архитектуре, где требуется отслеживать не только успешные запросы, но и все возможные ошибки, включая тайм-ауты, ограничения токенов и несоответствия контекста? Какие метрики и инструменты вы бы использовали?