역-KL 발산
두 확률 분포의 차이를 측정하는 지표 중 하나로, 학생 모델의 분포가 교사 모델의 높은 확률 영역에 집중되도록 유도한다. LLM 학습에서 모델이 더 확신을 가지고 답변하도록 만드는 데 주로 사용된다.