스위글루
Swish와 Gated Linear Unit을 결합한 활성화 함수이다. 기존 ReLU 대비 학습 안정성과 성능이 우수하여 Llama, Qwen 등 최신 대규모 언어 모델의 Feed-Forward Network 구조에 널리 채택된다.