비디오 트랜스포머
비디오 시퀀스를 입력으로 받아 시공간적 특징을 학습하는 모델이다. 3D 어텐션 메커니즘을 통해 프레임 간의 연관성을 파악하며 복잡한 동작 인식에 강점이 있다. 위장된 객체의 미세한 움직임을 포착하는 데 유리할 것으로 기대된다.