상태 기반 반성적 의사결정 프로세스
에이전트의 상태에 과거 경험이 축적된 메모리를 포함시켜 모델링하는 방식이다. 에이전트가 단순히 현재 입력만 보는 것이 아니라 진화하는 메모리를 함께 고려하게 함으로써, 시간이 지남에 따라 행동을 개선할 수 있는 수학적 토대를 제공한다.