소프트 적응형 정책 최적화
강화학습 과정에서 확률 변화를 급격하게 제한하는 하드 클리핑 대신 온도 조절형 소프트 게이트를 사용하여 학습의 안정성과 효율성을 높인 알고리즘이다. 모델이 너무 극단적인 확률 분포를 가지지 않도록 조절하여 복잡한 시각 추론 학습 시 성능 저하를 방지한다.