Какой из следующих подходов к оценке AI-агента наиболее эффективен для проверки его согласованности в различных сценариях?