보상 모델링
강화학습이나 평가 시스템에서 에이전트의 특정 행동이나 결과가 목표 지시사항에 얼마나 부합하는지를 수치적인 보상 값으로 변환하는 모델을 구축하는 과정입니다. 에이전트의 성능을 정량적으로 측정하고 개선하는 데 필수적입니다.