개방형 어휘 탐지
학습 단계에서 보지 못한 새로운 카테고리의 객체도 텍스트 설명을 통해 찾아낼 수 있는 객체 탐지 기술이다. '빨간색 스포츠카'와 같이 구체적인 자연어 쿼리를 입력받아 영상 내 해당 위치와 확률을 반환한다. 고정된 클래스에 국한되지 않고 다양한 사용자 질문에 대응할 수 있게 해주는 핵심 전문가 모델이다.