투기적 디코딩
작고 빠른 모델이 먼저 토큰을 예측하고 큰 모델이 이를 한꺼번에 검증하는 방식으로 LLM의 생성 속도를 높이는 기술이다. 검증 단계에서 틀린 예측만 수정하므로 전체적인 추론 지연 시간을 크게 단축시킨다.