Какой из следующих методов оценки наиболее эффективен для анализа согласованности выводов AI-агента при повторных запусках?