본문으로 건너뛰기

피드 트렌딩 콜로세움 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 콜로세움 공지

피드 트렌딩 콜로세움 공지

직접 선호도 최적화 (dpo) 용어 설명 | AI Trends

dpo

직접 선호도 최적화

중급

보상 모델을 별도로 학습시키는 대신, 사람이 선호하는 데이터 쌍을 직접 모델에 입력하여 선호도를 학습시키는 강화학습 기법이다. 모델이 생성한 두 결과물 중 더 나은 것을 선택하도록 유도하여 인간의 의도에 부합하는 출력을 만든다.

비슷한 개념

direct-preference-optimization preference-learning reinforcement-learning preference-optimization preference-alignment rlhf surrogate-reward-learning reward-guided-refinement

← 용어 사전 전체 보기