SWE-bench 검증판
실제 GitHub 오픈 소스 프로젝트에서 발생한 이슈를 해결하는 모델의 능력을 측정하는 벤치마크입니다. 기존 버전의 오류를 수정하고 인간 전문가가 직접 검토하여 평가의 신뢰성을 극대화한 버전으로, 현재 SWE 에이전트 성능 측정의 표준으로 자리 잡았습니다.