LLM 추론 최적화
대규모 언어 모델이 답변을 생성하는 속도를 높이고 메모리 사용량을 줄이는 기술이다. 양자화나 가지치기 등을 통해 하드웨어 효율을 극대화하며, 서비스 운영 비용 절감에 필수적이다.