소프트 적응형 정책 최적화(sapo)이란 무엇인가요?

Question

Accepted Answer

강화학습 과정에서 확률 변화를 급격하게 제한하는 하드 클리핑 대신 온도 조절형 소프트 게이트를 사용하여 학습의 안정성과 효율성을 높인 알고리즘이다. 모델이 너무 극단적인 확률 분포를 가지지 않도록 조절하여 복잡한 시각 추론 학습 시 성능 저하를 방지한다.

sapo