오디오 기반 비디오 생성
음성 데이터를 입력으로 받아 그에 맞는 인물의 입모양(립싱크)이나 얼굴 표정을 생성하는 기술이다. 텍스트 기반 생성보다 실제 발화와 영상 간의 동기화 수준이 높아 사실적인 인물 묘사에 필수적이다.