단계별 모델
음성 인식(ASR), 기계 번역(MT), 음성 합성(TTS) 등 여러 독립적인 모델을 순차적으로 연결한 구조이다. 각 단계에서 발생하는 오류가 누적되거나 지연 시간이 길어지는 단점이 있다.