Q-테이블
강화학습 에이전트가 특정 상태에서 특정 행동을 했을 때 기대되는 누적 보상(Q-value)을 기록한 표임. 에이전트는 이 테이블을 참조하여 가장 높은 가치를 제공하는 행동을 선택함.