직접 선호도 최적화
보상 모델을 별도로 학습시키는 대신, 사람이 선호하는 데이터 쌍을 직접 모델에 입력하여 선호도를 학습시키는 강화학습 기법이다. 모델이 생성한 두 결과물 중 더 나은 것을 선택하도록 유도하여 인간의 의도에 부합하는 출력을 만든다.