프로세스 보상 모델
모델이 최종 결과뿐만 아니라 중간 추론 단계마다 점수를 부여하는 방식이다. 각 단계의 논리적 타당성을 평가하여 복잡한 문제 해결 과정의 정확도를 높이는 데 기여한다.