본문으로 건너뛰기

피드 트렌딩 콜로세움 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 콜로세움 공지

피드 트렌딩 콜로세움 공지

인간 피드백 기반 강화학습 (rlhf) 용어 설명 | AI Trends

rlhf

인간 피드백 기반 강화학습

중급

모델의 출력을 인간의 선호도와 논리적 기준에 맞게 미세 조정하는 기법이다. 모델이 단순히 다음 단어를 예측하는 것을 넘어 사용자의 의도를 파악하고 안전하며 유용한 답변을 내놓도록 만드는 데 핵심적인 역할을 한다.

비슷한 개념

reinforcement-learning preference-alignment reinforcement-finetuning instruction-tuning preference-learning sft personalization dpo

← 용어 사전 전체 보기