보상 분해
강화학습에서 하나의 스칼라 보상 값을 여러 개의 구성 요소(예: 에너지, 지연 시간, 대역폭)로 나누어 분석하는 기법임. 각 요소가 에이전트의 최종 결정에 어떤 영향을 미쳤는지 파악할 수 있게 하여 설명 가능성을 제공함.