본문으로 건너뛰기

피드 트렌딩 콜로세움 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 콜로세움 공지

피드 트렌딩 콜로세움 공지

리인포스 알고리즘 (reinforce) 용어 설명 | AI Trends

reinforce

리인포스 알고리즘

고급

정책 경사(Policy Gradient) 방법의 기초가 되는 강화학습 알고리즘이다. 특정 행동의 결과로 얻은 보상을 바탕으로, 높은 보상을 받은 행동이 다시 발생할 확률을 높이도록 모델의 가중치를 직접 갱신한다.

비슷한 개념

policy-gradient reinforcement-learning q-learning reinforcement-finetuning deep-reinforcement-learning rloo on-policy-training reward-modeling

← 용어 사전 전체 보기