텍스트 투 비디오
텍스트 설명을 입력받아 그에 상응하는 동영상을 생성하는 기술이다. 최근에는 이미지 생성 모델의 아키텍처를 확장하여 시간축 데이터를 처리하는 방식으로 발전하고 있으며, Klein과 같은 모델이 대표적이다.