온라인 강화학습
에이전트가 환경과 실시간으로 상호작용하며 수집한 데이터를 즉시 학습에 사용하여 정책을 업데이트하는 방식으로, 변화하는 환경에 빠르게 적응해야 하는 로봇 제어에 필수적입니다.