소프트 액터-크리틱
최대 엔트로피 강화학습 원리를 기반으로 하는 오프폴리시 알고리즘. 보상뿐만 아니라 정책의 무작위성(엔트로피)을 함께 극대화하여 안정적이고 효율적인 학습을 가능하게 함.