mock_sobes
← AI — Agents: Reasoning, Tools, Fallback
senior theory #4
Как оценивать агента, который делает многошаговую задачу? Чем eval агента отличается от eval обычной LLM?
Чтобы решить вопрос и сохранить попытку — войди.