신용 범위
에이전트의 특정 행동이 최종 결과에 얼마나 기여했는지 판단하기 위해 참조하는 실행 트레이스의 길이다. 강화학습의 보상 할당 문제와 관련이 있으며, 피드백으로 제공할 정보의 시간적 범위를 결정한다.