AI агенты — A/B-тесты и онлайн-eval (shadow traffic, контроль недетерминированности, метрики)

Какие **подходы к оценке качества** вы бы предложили для AI-агента, если **все метрики измеряются через пользовательские взаимодействия**, но **нельзя контролировать входные данные**? Какие **методы коррекции смещения** вы применили бы?