어드밴티지 추정
특정 행동이 평균적인 행동보다 얼마나 더 좋은 성과를 냈는지를 수치화하는 과정이다. [현재 보상에서 평균 보상을 뺀 값을 입력으로] → [정규화 연산을 거쳐] → [상대적인 우수성을 도출하며] → 이 값이 양수면 해당 행동을 강화한다.