토큰 최적화
모델에 입력되는 텍스트를 최소화하여 연산 효율을 높이는 기법이다. 불필요한 노이즈를 제거함으로써 추론 속도를 높이고 제한된 메모리 내에서 더 긴 문맥을 유지할 수 있게 한다.