온폴리시 학습
현재 학습 중인 모델(Policy)이 직접 생성한 데이터를 사용하여 모델을 업데이트하는 방식이다. 외부의 고정된 데이터셋을 쓰는 오프폴리시(Off-policy)와 달리, 모델의 현재 상태에 최적화된 피드백을 제공하여 보상 해킹을 방지하고 성능을 극대화한다.