소프트웨어 엔지니어링 벤치마크
LLM이 실제 GitHub 이슈를 해결하는 능력을 측정하는 벤치마크이다. 단순 코드 생성을 넘어 실제 환경에서의 버그 수정 및 기능 구현 능력을 평가하는 핵심 지표로 활용된다.