게으른 어텐션 국소화
멀티모달 학습을 진행함에도 불구하고 모델이 시각적 토큰에 충분히 집중하지 않고 기존의 텍스트 중심 어텐션 패턴을 유지하려는 경향을 말한다. 이는 멀티모달 추론 성능 저하의 주요 원인으로 지목되는 현상이다.