전문가 혼합
전체 파라미터 중 입력값에 따라 필요한 일부 전문가(Expert) 네트워크만 활성화하여 연산 효율성을 극대화하는 구조이다. 모델의 전체 용량은 키우면서도 실제 추론 시의 계산 비용은 낮게 유지할 수 있어, 다국어나 다양한 도메인을 처리하는 모델 설계에 유리하다.