풀스트림 텍스트 음성 변환
전체 텍스트가 입력될 때까지 기다리지 않고, 텍스트가 토큰 단위로 들어오는 즉시 음성 생성을 시작하여 출력하는 방식이다. 첫 번째 음성 패킷이 나오기까지의 지연 시간(Latency)을 최소화하는 것이 핵심이다.