FP8 KV 캐시
KV 캐시 데이터를 8비트 부동소수점 형식으로 양자화하여 저장함으로써 메모리 사용량을 절반으로 줄이는 기술이다. 더 적은 메모리로 더 큰 배치 사이즈를 처리할 수 있게 하여 전체적인 추론 성능을 향상시킨다.