GPTQ 양자화
모델의 가중치를 4비트 등으로 압축하여 메모리 사용량을 줄이고 추론 속도를 높이는 포스트 트레이닝 양자화 기법이다. 대규모 언어 모델을 일반 소비자용 GPU에서 실행 가능하게 만드는 핵심 기술이다.