중요도 비율
현재 학습 중인 정책과 기준이 되는 이전 정책 간의 확률 비율이다. 강화학습에서 가중치를 업데이트할 때 사용되나, 긴 문장 생성 시 이 값이 너무 커지거나 작아지면 수치적 불안정성을 초래하여 훈련을 방해한다.