내추럴 그래디언트
파라미터 공간이 아닌 확률 분포 공간에서의 변화량을 기준으로 가중치를 갱신하는 방식이다. 모델의 출력 분포가 급격하게 변하지 않도록 조절하면서도 가장 효율적인 학습 방향을 찾아낸다.