본문으로 건너뛰기

피드 트렌딩 콜로세움 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 콜로세움 공지

피드 트렌딩 콜로세움 공지

근사 정책 최적화 (ppo) 용어 설명 | AI Trends

ppo

근사 정책 최적화

중급

강화학습에서 정책의 급격한 변화를 방지하면서 안정적으로 학습하기 위해 클리핑(Clipping) 기법을 사용하는 알고리즘이다. 에이전트가 수집한 데이터를 효율적으로 활용하며 구현이 비교적 간단해 널리 쓰인다.

비슷한 개념

sapo hard-clipping policy-gradient dd-ppo offline-rl online-rl soft-actor-critic surrogate-reward-learning

← 용어 사전 전체 보기