비디오 기반 지도 학습 미세 조정
비디오 데이터와 그에 대한 텍스트 지시문을 쌍으로 사용하여 멀티모달 모델의 시간적 이해 능력을 향상시키는 학습 과정이다. 모델이 연속된 프레임 간의 관계를 파악하도록 돕지만, 정지 이미지 성능에 영향을 줄 수 있다.