메모리 기반 정책
과거의 상태나 행동 정보를 기억 장치에 저장하여 현재의 의사결정에 활용하는 방식이다. 부분 관측 가능한 환경(POMDP)에서 에이전트의 성능을 높이는 데 필수적이다.