AI агенты — оценка (Evaluation)

Представьте, что вы оцениваете агента AI на задаче с высокой неопределенностью (например, генерация планов в динамических средах). Какие конкретные метрики вы бы выбрали для оценки его способности к адаптации, и как бы вы смягчили влияние субъективности в оценке качества результатов?