인간 피드백 기반 강화학습
모델의 출력을 인간의 선호도와 논리적 기준에 맞게 미세 조정하는 기법이다. 모델이 단순히 다음 단어를 예측하는 것을 넘어 사용자의 의도를 파악하고 안전하며 유용한 답변을 내놓도록 만드는 데 핵심적인 역할을 한다.