젠슨-섀넌 발산
두 확률 분포 사이의 유사성을 측정하는 통계적 거리 척도이다. KL 발산과 달리 대칭적이며 0과 log 2 사이의 유한한 값을 가져, 모델 학습 전후의 토큰 예측 분포 변화를 안정적으로 비교하는 데 사용된다.