단일 스트림 트랜스포머
텍스트, 이미지, 오디오 등 서로 다른 형태의 데이터를 하나의 연속된 시퀀스로 묶어 단일 신경망에서 동시에 처리하는 구조이다. 모달리티 간의 복잡한 연결 구조를 단순화하여 학습 효율과 데이터 간의 유기적인 관계 학습 능력을 높이는 데 기여한다.