잠재 정렬
음성 신호의 특징과 텍스트 토큰 사이의 명시적인 위치 정보 없이도 모델 내부에서 이들의 관계를 자동으로 맞추는 학습 기법입니다. 이는 비자기회귀 모델에서 음성과 텍스트의 길이를 일치시키고 정확한 편집 위치를 찾는 데 필수적인 역할을 합니다.