멀티모달 대형 언어 모델 (mllm-multimodal-large-language-model) 용어 설명 | AI Trends
mllm-multimodal-large-language-model
멀티모달 대형 언어 모델
중급
텍스트뿐만 아니라 이미지와 영상 등 다양한 모달리티의 데이터를 통합적으로 이해하고 생성할 수 있는 거대 언어 모델이다. 이 논문에서는 비디오 생성의 '두뇌' 역할을 수행하며, 입력된 시각 정보를 분석하고 생성할 영상의 세부 묘사를 추론하여 생성 엔진에 전달함으로써 지능적인 비디오 합성을 가능하게 한다.