스칼라 보상
강화학습에서 행동의 결과로 주어지는 단일 수치 값으로, 정보량이 제한적이어서 복잡한 피드백을 전달하기 어렵습니다. 이는 에이전트가 왜 특정 행동이 좋거나 나빴는지 이해하는 데 한계를 제공하며 탐색 효율을 저하시키는 원인이 됩니다.