사후 학습 양자화
추가적인 모델 재학습 없이 이미 학습이 완료된 모델의 가중치와 활성화 함수 값을 낮은 비트로 변환하는 기법이다. 연산량과 메모리 사용량을 즉각적으로 줄여 배포 효율성을 높이는 데 핵심적인 역할을 한다.