롤아웃
강화학습에서 현재 정책(Policy)을 사용하여 환경과 상호작용하며 궤적 데이터를 생성하는 과정이다. 에이전트가 도구를 사용하고 보상을 받는 전체 실행 단계를 의미하며, 모델 업데이트를 위한 학습 데이터의 원천이 된다.