마스크 트랜스포머
학습 가능한 쿼리 토큰을 사용하여 이미지 내 객체의 마스크와 클래스를 예측하는 Transformer 기반 구조이다. 픽셀 단위 분류 대신 쿼리와 특징 맵의 내적을 통해 마스크를 생성한다.