오프로딩
모델의 연산이나 데이터를 GPU VRAM이 아닌 CPU나 시스템 RAM으로 넘겨 처리하는 방식이다. VRAM 용량이 부족할 때 모델을 실행 가능하게 해주지만, 데이터 전송 병목으로 인해 추론 속도가 급격히 떨어진다.