시간적 국소화
긴 영상 시퀀스 내에서 특정 사건이나 정보가 발생하는 정확한 시점(시작과 끝)을 찾아내는 기술이다. 수십 분 분량의 데이터에서 질문과 관련된 찰나의 순간을 식별해야 하므로 모델의 정밀한 시간 축 이해 능력을 측정하는 척도가 된다.