정책 경사
에이전트가 받는 보상의 기대값을 최대화하기 위해 정책 파라미터를 직접 업데이트하는 강화학습 알고리즘의 한 종류입니다. 이는 가치 함수를 거치지 않고 직접 정책을 최적화하여 복잡한 행동 공간에서도 효과적인 학습을 가능하게 하는 핵심 기술입니다.