표현 정렬
생성 모델의 중간 특징값을 미리 학습된 강력한 시맨틱 인코더(예: DINOv2)의 특징값과 일치시키는 학습 기법이다. 모델이 이미지의 의미적 구조를 더 빨리 파악하도록 유도하여 학습 수렴 속도를 획기적으로 높이는 역할을 한다.