액터-크리틱
정책을 결정하는 액터(Actor)와 해당 행동의 가치를 평가하는 크리틱(Critic)으로 구성된 강화학습 구조이다. 액터는 행동을 수행하고 크리틱은 그 결과를 평가하여 액터의 학습 방향을 가이드하며 분산을 줄이는 효과가 있다.