강제 정렬
음성 데이터와 해당 텍스트 대본을 시간 단위로 일치시키는 기술이다. 특정 단어나 음소가 정확히 어느 시점에 발음되었는지 파악할 수 있게 하여 발음 평가와 자막 생성의 정확도를 높인다.