모니터링 가능성
AI 모델의 내부 상태나 사고 과정을 외부에서 관찰하고 검증할 수 있는 정도를 의미합니다. 특히 사고의 사슬(CoT)이 모델의 실제 의도를 정직하게 반영하는지 판단하는 안전성 연구의 핵심 지표입니다.