내부 표현
모델 내부의 뉴런 활성화 패턴으로 데이터의 특징을 추상화하여 저장하는 방식이다. 이를 분석하면 모델이 특정 개념을 어떻게 이해하고 있는지 파악할 수 있으며, 본 논문에서는 보안 취약점에 대한 모델의 인지 상태를 확인하는 데 활용됐다.