온폴리시 파인튜닝(on-policy-fine-tuning)이란 무엇인가요?

Question

Accepted Answer

모델이 훈련 중에 본 정답 경로가 아니라, 실제 추론 과정에서 스스로 생성한 경로(Policy)를 바탕으로 오류를 수정하며 재학습하는 기법이다. 훈련과 실제 사용 환경 사이의 괴리를 줄여 장기 예측 시 발생하는 드리프트 현상을 억제한다.

on-policy-fine-tuning