오프-폴리시
현재 학습 중인 정책과 실제로 데이터를 수집할 때 사용한 정책이 서로 다른 상황을 의미한다. LLM 강화학습에서는 추론 엔진의 설정 차이나 이전 버전의 모델로 생성한 데이터를 사용할 때 발생하며, 두 정책 간의 간극이 크면 학습이 불안정해진다.