본문으로 건너뛰기

피드 트렌딩 콜로세움 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 콜로세움 공지

피드 트렌딩 콜로세움 공지

오프-폴리시 (off-policy) 용어 설명 | AI Trends

off-policy

오프-폴리시

중급

현재 학습 중인 정책과 실제로 데이터를 수집할 때 사용한 정책이 서로 다른 상황을 의미한다. LLM 강화학습에서는 추론 엔진의 설정 차이나 이전 버전의 모델로 생성한 데이터를 사용할 때 발생하며, 두 정책 간의 간극이 크면 학습이 불안정해진다.

비슷한 개념

off-policy-learning on-policy-training off-policy-scaffolding on-policy-fine-tuning offline-rl on-policy-distillation soft-actor-critic rollout

← 용어 사전 전체 보기