캐시 적중률(cache-hit-rate)이란 무엇인가요?

Question

Accepted Answer

이전에 처리된 프롬프트나 컨텍스트가 재사용되어 연산 비용을 절감하는 비율이다. 최근 LLM API들은 캐싱된 입력에 대해 대폭적인 할인을 제공하므로 비용 예측의 핵심 변수이다. 대규모 시스템에서 운영 비용을 최적화하는 가장 효과적인 수단 중 하나이다.

cache-hit-rate