순방향 프로세스 강화학습
복잡한 역방향 미분 과정 없이 생성된 최종 결과물(추론 종단점)에서 직접 보상을 계산하여 모델을 업데이트하는 방식이다. 연산 효율이 매우 높고 모델의 내부 구조나 솔버의 종류에 상관없이 적용 가능한 장점이 있다.