오프폴리시 학습
현재 학습 중인 정책이 아닌, 과거의 정책이나 다른 경로를 통해 수집된 데이터를 사용하여 학습하는 방식이다. 데이터 재사용성이 높지만 현재 정책과의 괴리로 인해 학습이 불안정해질 수 있는 위험이 있다.