온폴리시 학습(on-policy-training)이란 무엇인가요?

Question

Accepted Answer

현재 학습 중인 모델(Policy)이 직접 생성한 데이터를 사용하여 모델을 업데이트하는 방식이다. 외부의 고정된 데이터셋을 쓰는 오프폴리시(Off-policy)와 달리, 모델의 현재 상태에 최적화된 피드백을 제공하여 보상 해킹을 방지하고 성능을 극대화한다.

on-policy-training