보상 가이드 정제(reward-guided-refinement)이란 무엇인가요?

Question

Accepted Answer

강화학습의 보상 신호를 활용하여 생성 모델의 출력물을 특정 목표나 품질 기준에 맞게 미세 조정하는 과정이다. 생성된 결과물 전체를 평가하여 점수를 매기고, 이 점수를 바탕으로 모델의 생성 방향을 최적화하여 의도에 더 부합하는 결과를 얻는다.

reward-guided-refinement