AI агенты — оценка (Evaluation)

При масштабировании AI-агента на десятки тысяч параллельных потоков, как вы бы оценивали его способность к отказоустойчивости и согласованности вывода в условиях частичной потери данных? Какие метрики и методы тестирования будут критичны для выявления критических failure modes?