멀티모달 대형 언어 모델(mllm-multimodal-large-language-model)이란 무엇인가요?

Question

Accepted Answer

텍스트뿐만 아니라 이미지와 영상 등 다양한 모달리티의 데이터를 통합적으로 이해하고 생성할 수 있는 거대 언어 모델이다. 이 논문에서는 비디오 생성의 '두뇌' 역할을 수행하며, 입력된 시각 정보를 분석하고 생성할 영상의 세부 묘사를 추론하여 생성 엔진에 전달함으로써 지능적인 비디오 합성을 가능하게 한다.

mllm-multimodal-large-language-model

비슷한 개념