계층적 트랜스포머
데이터를 여러 계층으로 나누어 처리하는 구조로, 긴 문맥의 대화 상태를 요약하는 상위 계층과 세부 토큰을 생성하는 하위 계층으로 구성된다. 복잡한 대화 흐름을 효율적으로 관리하는 데 유리하다.