그래디언트 분산
학습 과정에서 가중치를 업데이트하기 위한 기울기 값들이 얼마나 요동치는지를 나타낸다. 분산이 크면 학습이 불안정해지고 최적의 성능에 도달하기 어려워지므로 이를 제어하는 것이 중요하다.