희소 롤아웃
강화학습에서 환경과 상호작용하여 데이터를 수집할 때, 계산 자원을 절약하기 위해 매우 적은 수의 샘플만을 추출하여 실행하는 방식입니다. 샘플 수가 적어 분산이 커질 위험이 있지만 효율적인 학습을 위해 필수적으로 사용됩니다.