CUDA 그래프
GPU 연산 작업을 그래프 형태로 미리 정의하여 실행 오버헤드를 줄이는 기술이다. VLLM에서 추론 속도를 높이기 위해 사용되지만, 초기 캡처 단계에서 상당한 시간이 소요될 수 있다.