하드 클리핑
특정 범위를 벗어나는 값을 강제로 경계값에 고정하는 기법이다. PPO나 GRPO에서 중요도 비율을 제한하기 위해 쓰이지만, 경계에서 미분이 불가능해지고 기울기가 사라지는 구간이 발생하여 학습 효율을 떨어뜨린다.