본문으로 건너뛰기

피드 트렌딩 콜로세움 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 콜로세움 공지

피드 트렌딩 콜로세움 공지

어드밴티지 베이스라인 (advantage-baseline) 용어 설명 | AI Trends

advantage-baseline

어드밴티지 베이스라인

중급

보상 추정의 분산을 줄이기 위해 사용되는 기준값으로, 실제 보상에서 이 값을 빼서 특정 행동이 평균보다 얼마나 더 나은지를 나타내는 어드밴티지를 계산합니다. 이를 통해 정책 업데이트의 안정성을 크게 향상시킬 수 있습니다.

비슷한 개념

advantage-estimation advantage-reweighting token-level-advantage baseline-model mean-squared-error q-learning baseline reinforce

← 용어 사전 전체 보기