어드밴티지 베이스라인
보상 추정의 분산을 줄이기 위해 사용되는 기준값으로, 실제 보상에서 이 값을 빼서 특정 행동이 평균보다 얼마나 더 나은지를 나타내는 어드밴티지를 계산합니다. 이를 통해 정책 업데이트의 안정성을 크게 향상시킬 수 있습니다.