제로샷 목소리 복제
모델이 학습 과정에서 한 번도 접하지 못한 새로운 화자의 짧은 음성 샘플(프롬프트)만 보고도, 해당 화자의 음색과 말투를 즉석에서 흉내 내어 새로운 문장을 말하게 하는 기술이다.