온폴리시 파인튜닝
모델이 훈련 중에 본 정답 경로가 아니라, 실제 추론 과정에서 스스로 생성한 경로(Policy)를 바탕으로 오류를 수정하며 재학습하는 기법이다. 훈련과 실제 사용 환경 사이의 괴리를 줄여 장기 예측 시 발생하는 드리프트 현상을 억제한다.