로그 확률 차이
강화학습 전후의 두 모델이 특정 토큰을 생성할 확률의 로그값 차이를 의미한다. 단순한 확률 변화량보다 모델이 학습을 통해 어떤 방향(증가 또는 감소)으로 정책을 수정했는지 명확하게 보여주는 지표이다.