교차 모달 유사도
서로 다른 형태의 데이터(예: 비디오 클립과 텍스트 설명)가 얼마나 유사한 의미를 담고 있는지를 수치화한 값이다. 주로 임베딩 공간에서의 코사인 유사도를 통해 계산하며, 모델이 생성한 텍스트가 실제 비디오 내용과 일치하는지 평가하는 보상 신호로 쓰인다.