시간적 헤드
비디오 분류에서 각 프레임의 특징을 시간 순서대로 결합하여 동작이나 상태 변화를 파악하는 모델의 상단부 구조이다. 1D CNN이나 RNN, 어텐션 메커니즘을 사용하여 프레임 간의 연관성을 학습한다.