오프라인 강화학습
에이전트가 환경과 실시간으로 상호작용하지 않고, 미리 수집되거나 합성된 데이터셋만을 사용하여 최적의 정책을 학습하는 기법이다. 탐색 공간이 넓은 에이전트 시스템에서 시행착오 비용을 줄이면서도 효율적인 학습을 가능하게 한다.