온폴리시 컨텍스트 증류
모델이 현재 자신의 정책에 따라 생성한 데이터를 바탕으로 학습을 진행하여, 학습 데이터와 실제 추론 데이터 사이의 분포 차이를 최소화하는 증류 기법이다. 모델이 지식을 참고하여 생성한 고품질 답변을 지식 없이도 생성할 수 있도록 가중치를 갱신하는 데 사용된다.