MATH500 벤치마크
고등학교 수준의 어려운 수학 문제 500개로 구성된 데이터셋으로, LLM의 논리적 추론 능력을 평가하는 핵심 지표이다. PRISM 파이프라인을 통해 베이스 모델 대비 정답률이 수십 퍼센트 포인트 이상 향상됨이 확인됐다.