비전 인코더
이미지나 비디오 같은 시각적 정보를 모델이 이해할 수 있는 수치적 벡터로 변환하는 신경망 구성 요소이다. 이 모델에서는 특이하게 텍스트 전용 LLM을 이 용도로 개조하여 사용했다.