KV 캐시 양자화
모델 추론 과정에서 이전 토큰들의 정보를 저장하는 Key-Value 캐시의 정밀도를 낮추어 메모리 사용량을 획기적으로 줄이는 기법으로, 긴 컨텍스트 유지에 필수적이다.