행동 복제
전문가의 시연 데이터를 직접 학습하여 에이전트가 전문가의 행동을 그대로 따라 하도록 만드는 모방 학습 기법이다. 보상 함수 설계가 어려운 복잡한 작업에서 유용하게 사용되지만 데이터 의존도가 높다는 특징이 있다.