그룹 쿼리 어텐션(grouped-query-attention)이란 무엇인가요?

Question

Accepted Answer

여러 개의 쿼리 헤드가 하나의 키-값 헤드 쌍을 공유하도록 설계하여 메모리 사용량과 연산량을 줄이는 어텐션 방식이다. 이러한 공유 구조는 출력 단계에서 일종의 평균화 효과를 발생시켜 신호의 변동성을 낮추며, 결과적으로 모델 내부의 분산 폭발을 막아 깊은 레이어의 유효성을 보존하는 역할을 수행한다.

grouped-query-attention

비슷한 개념