마르코프 결정 과정
의사결정 과정을 수학적으로 모델링하는 프레임워크로, 현재 상태가 이전 상태와 독립적이라는 마르코프 성질을 가정한다. 강화학습의 이론적 기초가 되며, 에이전트가 보상을 최대화하기 위한 최적의 정책을 찾는 데 사용된다.