AI агенты — оценка (Evaluation)

Представьте, что ваш AI-агент должен решать задачи с нечеткими критериями успеха (например, 'удовлетворительное' решение). Как вы бы формализовали метрики оценки, чтобы избежать субъективности и обеспечить воспроизводимость результатов?