클립
텍스트와 이미지를 연결하여 학습한 멀티모달 모델이다. 이미지의 특징을 벡터로 변환하여 텍스트나 다른 이미지와의 유사도를 계산하는 데 사용된다. 이미지 검색 시스템의 핵심 엔진 역할을 한다.