L2 가중치 변화량
학습 전후의 모델 가중치 행렬 간의 유클리드 거리를 계산하여 파라미터가 얼마나 많이 수정되었는지 측정하는 지표이다. Mid-training이 모델의 90% 이상을 조밀하게 수정하는 반면, RL은 5% 미만을 희소하게 수정함을 밝히는 근거가 됐다.