AI агенты — оценка (Evaluation)

Как вы бы сравнивали эффективность двух подходов к оценке AI-агента: синтетических данных (generated data) vs. реальных данных из production (live data)? Какие trade-offs между точностью оценки и реалистичностью сценариев вы бы выделили?