평가자-최적화 루프
생성 모델이 내놓은 결과물을 검증 모델이 평가하고 피드백을 제공하여 다시 생성하게 하는 반복 루프 구조이다. 코드 작성이나 정밀한 텍스트 생성처럼 결과물의 품질이 중요한 작업에서 성능을 극대화하는 데 사용된다.