패스 앳 케이 (일관성 지표)
에이전트가 동일한 작업에 대해 k번 시도했을 때 k번 모두 성공할 확률을 측정하는 지표이다. 기존의 Pass@k가 한 번이라도 성공하면 성공으로 간주하는 것과 달리, 실무 환경에서 에이전트가 얼마나 일관되고 신뢰할 수 있는 성능을 보이는지 평가하기 위해 사용된다.