프리노름
레이어의 연산 전에 정규화를 수행하는 방식으로 현대 LLM의 표준 구조이다. 학습 안정성은 높지만 깊이가 깊어질수록 초기 층의 기여도가 상대적으로 낮아지는 '희석(Dilution)' 문제가 발생한다.