루브릭
학습자의 수행 능력을 평가하기 위해 미리 정해놓은 세부적인 평가 기준표입니다. 본 논문에서는 LLM이 생성 품질을 다각도로 평가하기 위한 구체적인 지표로 사용되어 강화학습의 보상 신호를 정교화합니다.