보상 가이드 정제
강화학습의 보상 신호를 활용하여 생성 모델의 출력물을 특정 목표나 품질 기준에 맞게 미세 조정하는 과정이다. 생성된 결과물 전체를 평가하여 점수를 매기고, 이 점수를 바탕으로 모델의 생성 방향을 최적화하여 의도에 더 부합하는 결과를 얻는다.