장기 강화학습
긴 시간 단계에 걸친 복잡한 의사결정 과정을 최적화하는 강화학습 기법이다. 에이전트가 당장의 보상보다 미래의 더 큰 보상을 위해 일련의 행동을 계획하고 실행하는 능력을 배양한다.