AI — Agents: Reasoning, Tools, Fallback

mock_sobes

senior theory #4

Как оценивать агента, который делает многошаговую задачу? Чем eval агента отличается от eval обычной LLM?

Чтобы решить вопрос и сохранить попытку — войди.