일관성 보상
동일한 대상에 대해 서로 다른 조건(예: 원본 vs 노이즈 추가)에서도 모델이 동일하거나 유사한 답변을 내놓도록 유도하여 학습의 안정성과 신뢰성을 높이는 보상 체계입니다.