스트레이트 스루 추정기
미분 불가능한 불연속적 선택 과정에서 그래디언트를 그대로 통과시키는 기법이다. MoE의 라우팅 과정에서 선택되지 않은 전문가들도 학습 신호를 받을 수 있게 하여 전체 네트워크의 학습 안정성을 높인다.