텍스트 투 오디오
텍스트 설명을 입력받아 그에 상응하는 소리, 음악, 효과음을 생성하는 기술이다. 확산 모델(Diffusion Model)이나 트랜스포머 아키텍처를 기반으로 하며, 자연어 설명을 소리의 물리적 특성으로 변환한다.