콜드스타트 초기화
모델을 특정 작업에 맞게 미세 조정하기 전, 초기 가중치를 설정하고 기초적인 학습을 수행하는 핵심 단계이다. 멀티모달 모델에서는 시각 정보와 언어 정보를 처음으로 연결하여 상호작용의 기초를 닦는 매우 중요한 과정으로 평가받는다.