f-다이버전스
두 확률 분포 사이의 차이를 측정하는 일반화된 함수군으로, KL 다이버전스나 총 변동 거리(Total Variation Distance) 등을 포함하며 정책 간의 거리를 정의하는 데 사용됩니다.