KV 캐싱
Transformer 모델의 추론 과정에서 이전에 계산된 Key와 Value 벡터들을 메모리에 저장해두고 재사용하는 기술이다. 매 토큰 생성 시마다 전체 시퀀스를 다시 계산할 필요가 없게 만들어 연산 효율성을 극대화한다.