보상 설계
에이전트가 목표를 더 빨리 달성할 수 있도록 환경에서 주는 기본 보상 외에 추가적인 보상을 설계하는 기법이다. 마리오 게임에서는 전진 거리나 적 처치 등을 보상으로 수치화하여 학습을 유도한다.