KV 캐시
LLM 추론 과정에서 이전 토큰들의 Key와 Value 행렬 값을 저장해두어 재계산을 방지하는 기술이다. 추론 속도를 비약적으로 향상시키지만 추가적인 비디오 메모리(VRAM) 점유가 발생한다.