리인포스 알고리즘
정책 경사(Policy Gradient) 방법의 기초가 되는 강화학습 알고리즘이다. 특정 행동의 결과로 얻은 보상을 바탕으로, 높은 보상을 받은 행동이 다시 발생할 확률을 높이도록 모델의 가중치를 직접 갱신한다.