제로샷 텍스트 음성 변환
학습 데이터에 포함되지 않은 새로운 화자의 짧은 음성 샘플(프롬프트)만으로 해당 화자의 목소리를 즉석에서 복제하여 음성을 생성하는 기술이다. 별도의 파인튜닝 과정 없이 즉각적인 음성 합성이 가능하여 실시간 서비스에 매우 유리하다.