인지적 불일치
Multimodal Large Language Models(MLLM)이 고차원적인 추론 과제는 성공적으로 수행하면서도 그 기초가 되는 단순 시각 기호 인식에는 실패하는 현상이다. 이는 모델의 지능이 실제 시각적 이해가 아닌 언어적 추론에 치중되어 있음을 나타낸다.