그룹 쿼리 어텐션
여러 개의 쿼리 헤드가 하나의 키-값(KV) 헤드를 공유하여 메모리 사용량과 추론 비용을 줄이는 기술이다. 대규모 언어 모델의 효율적인 추론을 위해 널리 사용된다.