시맨틱 캐싱
사용자의 질문이 기존에 처리했던 질문과 의미적으로 유사할 경우, 다시 모델을 호출하지 않고 저장된 답변을 반환하는 기술이다. 임베딩 벡터의 유사도를 비교하여 작동하며 API 호출 횟수와 비용을 획기적으로 줄인다.