Какой из следующих подходов к тестированию инструментов в AI-агентах позволяет наиболее эффективно выявить side effects?