오프-폴리시 스캐폴딩
현재 정책이 아닌 외부에서 생성된 고품질 데이터를 학습 과정에 주입하여 탐색을 돕는 보조 구조입니다. 보상이 희소한 영역에서 에이전트가 유의미한 상태에 도달할 수 있도록 징검다리 역할을 하여 학습의 안정성과 속도를 높입니다.