롤아웃 단계
강화학습 과정에서 모델이 현재 정책에 따라 실제로 데이터를 생성하고 환경과 상호작용하며 경험을 쌓는 단계를 의미합니다. 이 단계에서 수집된 궤적 데이터는 이후 정책을 업데이트하기 위한 보상 계산의 기초가 됩니다.