거절 미세 조정
모델이 생성한 여러 결과물 중 특정 검증 기준을 통과한 성공적인 샘플만을 선별하여 모델을 학습시키는 기법이다. 강화학습에서 양질의 데이터만을 학습에 활용하여 효율을 극대화하는 용도로 쓰인다.