본문으로 건너뛰기
AI Trends
피드
트렌딩
콜로세움
공지
로그인
피드
트렌딩
콜로세움
공지
preference-learning
선호도 학습
고급
모델이 단순히 정답을 복제하는 대신, 여러 후보 중 더 나은 결과물을 선택하도록 랭킹이나 비교를 통해 학습하는 기법으로 출력의 적절성을 높이는 데 기여한다.
비슷한 개념
direct-preference-optimization
dpo
preference-alignment
preference-optimization
rlhf
reinforcement-learning
training-signal
relevance-modeling
← 용어 사전 전체 보기
선호도 학습 (preference-learning) 용어 설명 | AI Trends