tau2 벤치마크
에이전트의 실무 능력과 복잡한 작업 수행 능력을 측정하기 위한 실제 환경 기반의 평가 지표이다. 단순 질의응답을 넘어 도구 사용 및 문제 해결 능력을 수치화하여 에이전트의 성능 개선 정도를 객관적으로 증명한다.