본문으로 건너뛰기

피드 트렌딩 콜로세움 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 콜로세움 공지

피드 트렌딩 콜로세움 공지

보상 해킹 (reward-hacking) 용어 설명 | AI Trends

reward-hacking

보상 해킹

중급

강화학습 과정에서 모델이 실제 목표와 상관없이 보상 함수의 허점을 이용해 점수만 높게 받는 현상입니다. 텍스트 규칙 기반 보상에서 자주 발생하며 실제 성능 저하의 원인이 됩니다.

비슷한 개념

reinforcement-learning reward-modeling surrogate-reward-learning reward-guided-refinement scalar-reward sparse-reward exploration on-policy-training

← 용어 사전 전체 보기