양자화
모델의 가중치를 낮은 비트(예: 4비트, 3비트)로 압축하여 메모리 사용량을 줄이고 연산 속도를 높이는 기법이다. 로컬 환경에서 제한된 VRAM에 거대 모델을 올리기 위해 필수적이지만 정밀도 손실이 발생할 수 있다.