본문으로 건너뛰기

피드 트렌딩 콜로세움 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 콜로세움 공지

피드 트렌딩 콜로세움 공지

일관성 보상 (consistency-reward) 용어 설명 | AI Trends

consistency-reward

일관성 보상

중급

동일한 대상에 대해 서로 다른 조건(예: 원본 vs 노이즈 추가)에서도 모델이 동일하거나 유사한 답변을 내놓도록 유도하여 학습의 안정성과 신뢰성을 높이는 보상 체계입니다.

비슷한 개념

dense-reward reinforcement-learning coherence verifiable-reward preference-learning invariance prompt-repetition training-signal

← 용어 사전 전체 보기