페이지드 어텐션
LLM 추론 시 발생하는 KV 캐시 메모리를 운영체제의 가상 메모리 관리 방식처럼 블록 단위로 나누어 관리하는 기술이다. 메모리 파편화를 방지하고 긴 컨텍스트를 효율적으로 처리할 수 있게 하여 처리량을 극대화한다.