AI агенты — A/B-тесты и онлайн-eval (shadow traffic, контроль недетерминированности, метрики)

Какие метрики вы бы использовали для оценки качества AI-агента в онлайн-среде, если у вас есть только **наблюдения за поведением** агента и **результаты пользовательских взаимодействий**? Какие из них могут быть **смещены** и почему?