Q-러닝
에이전트가 특정 상태에서 어떤 행동을 취할 때 얻을 수 있는 기대 보상(Q-값)을 학습하는 강화학습 알고리즘이다. 벨만 방정식을 기반으로 최적의 정책을 찾아가는 과정이 핵심이다.