비전 트랜스포머
자연어 처리의 Transformer 아키텍처를 이미지 인식에 적용한 모델로, 이미지를 패치 단위로 나누어 처리한다. 대규모 데이터셋에서 CNN보다 우수한 성능을 보이며 최근 컴퓨터 비전의 주류 기술로 자리 잡았다.