적대적 시뮬레이션
모델의 취약점이나 안전 가이드라인 위반 사례를 찾아내기 위해 의도적으로 공격적이거나 편향된 입력을 생성하여 테스트하는 기법이다. 가상의 사용자가 모델을 속이거나 부적절한 반응을 유도하는 시나리오를 통해 모델의 견고함을 검증한다.