행동 복제
전문가의 행동 데이터를 직접 학습하여 에이전트가 동일한 행동을 수행하도록 만드는 모방 학습의 가장 단순한 형태이다. 별도의 보상 함수 설계 없이 상태와 행동 간의 매핑을 지도 학습 방식으로 최적화한다.