어드밴티지 가중치 재설정
강화학습의 목적 함수에서 특정 행동이 평균보다 얼마나 좋은지를 나타내는 어드밴티지(Advantage) 값에 가중치를 부여하는 방식이다. 모델이 평소 선택할 확률이 낮았던 핵심 토큰에 학습을 집중시켜 효율을 높인다.