프리필링
대형 언어 모델(LLM)이 입력을 받아 첫 번째 토큰을 생성하기 전까지 전체 입력 시퀀스를 처리하고 KV 캐시를 생성하는 단계입니다. 시퀀스 길이가 길어질수록 연산량이 기하급수적으로 증가하여 추론의 주요 병목 구간이 됩니다.