FP8 양자화
모델의 가중치를 8비트 부동소수점으로 압축하여 메모리 사용량을 줄이는 기법이다. VRAM이 부족한 환경에서 대형 모델을 실행할 때 필수적이지만, 정밀도 손실로 인해 생성 품질이 미세하게 저하될 수 있다.