Pre-LN(pre-layer-normalization)이란 무엇인가요?

Question

Accepted Answer

Transformer 블록 내에서 Multi-head Attention이나 FFN 연산을 수행하기 직전에 Layer Normalization을 적용하는 아키텍처 설계 방식이다. 학습 안정성을 높여주지만, 레이어가 깊어질수록 잔차 연결을 통해 출력 분산이 지수적으로 증가하는 부작용을 낳아 '깊이의 저주'를 유발하는 주요 배경이 된다.

pre-layer-normalization

비슷한 개념