VRAM 오프로딩
모델의 일부 레이어를 GPU 메모리(VRAM)에 올려 연산 속도를 가속화하는 방식이다. GPU 용량이 부족할 경우 남은 레이어는 CPU와 시스템 RAM에서 처리하게 되며, 이 과정에서 데이터 전송 병목이 발생한다.