개념 스티어링
모델의 내부 활성화 값을 특정 방향으로 유도하여 출력의 성격이나 내용을 제어하는 기법이다. 모델의 가중치를 직접 수정하지 않고도 특정 개념(예: 보안)을 강화하거나 약화하여 원하는 결과를 얻을 수 있다.