신용 할당 문제
강화학습에서 최종 결과(보상)가 발생했을 때, 그 결과에 기여한 개별 행동들의 공헌도를 정확히 판별하는 기술적 난제이다. 긴 상호작용 과정에서 어떤 행동이 성공을 이끌었는지 혹은 실패의 원인이었는지 구분하는 것이 핵심이다.