거절 벡터
LLM이 유해한 요청을 거절할 때 공통적으로 나타나는 활성화 패턴을 추출한 벡터이다. 이 벡터를 모델의 중간 레이어에 더해주면 모델이 유해한 질문뿐만 아니라 일반적인 질문에 대해서도 거절하는 행동을 보이게 된다.