깊이의 저주
대형 언어 모델이 깊어질수록 뒤쪽 레이어가 학습에 거의 기여하지 못하고 입력값을 그대로 통과시키는 현상이다. 이는 Pre-LN 구조에서 신호의 분산이 누적되어 발생하는 문제로, 모델의 깊이를 늘려도 성능이 정체되는 근본적인 원인이 된다. 이를 해결하는 것은 모델의 표현력을 극대화하는 데 필수적이다.