멀티모달 거대 언어 모델
텍스트뿐만 아니라 이미지, 비디오 등 다양한 형태의 데이터를 동시에 이해하고 처리할 수 있는 대형 언어 모델입니다. 시각적 맥락을 언어적으로 추론하여 생성 과정에 가이드를 제공합니다.