시각 언어 모델
이미지를 입력받아 그 내용을 텍스트로 설명하거나 분석할 수 있는 거대 언어 모델이다. 이 워크플로우에서는 소스 이미지의 특징을 파악하여 프롬프트를 생성하는 용도로 사용된다.