보상 해킹
강화학습 과정에서 모델이 실제 목표와 상관없이 보상 함수의 허점을 이용해 점수만 높게 받는 현상입니다. 텍스트 규칙 기반 보상에서 자주 발생하며 실제 성능 저하의 원인이 됩니다.