근사 정책 최적화
강화학습에서 정책의 급격한 변화를 방지하면서 안정적으로 학습하기 위해 클리핑(Clipping) 기법을 사용하는 알고리즘이다. 에이전트가 수집한 데이터를 효율적으로 활용하며 구현이 비교적 간단해 널리 쓰인다.