Какие метрики вы бы использовали для оценки качества AI-агента в онлайн-среде, если у вас есть только **наблюдения за поведением** агента и **результаты пользовательских взаимодействий**? Какие из них могут быть **смещены** и почему?
senior
theory
#1648
Чтобы решить вопрос и сохранить попытку — войди.