보상 모델
보상 모델(Reward Model)은 생성된 결과물이 인간의 선호도나 특정 기준에 얼마나 부합하는지를 수치화하여 평가하는 모델이다. Calibri는 이 모델의 점수를 최적화 목표로 삼아 각 층의 가중치를 조정하며, 이를 통해 모델이 인간이 더 선호하는 방향의 이미지를 생성하도록 유도하는 가이드 역할을 수행한다.