하이브리드 CNN-ViT
합성곱 신경망(CNN)의 공간적 특징 추출 능력과 비전 트랜스포머(ViT)의 장거리 의존성 학습 능력을 결합한 구조이다. 연산 효율성을 유지하면서도 이미지의 세부 정보와 전체적인 맥락을 동시에 파악할 수 있어 최신 컴퓨터 비전 연구의 핵심 트렌드이다.