적대적 프롬프트 최적화
모델이 원치 않는 행동을 하거나 제약 조건을 어기도록 유도하기 위해 프롬프트를 자동으로 탐색하고 최적화하는 기법입니다. 모델의 취약점을 찾아내고 방어 성능을 평가하는 데 주로 사용됩니다.