멀티 토큰 예측
언어 모델이 다음 단어 하나만 예측하는 대신 여러 개의 미래 토큰을 한 번에 예측하도록 학습하고 추론하는 기법이다. 이를 통해 추론 시 연산 효율을 높이고 전체적인 생성 속도를 가속화할 수 있으며 최신 모델에서 성능 향상을 위해 도입되고 있다.