희소성
강화학습 과정에서 모델의 모든 출력이 변하는 것이 아니라, 전체 시퀀스 중 추론의 논리적 전환점이 되는 극소수의 토큰들만 집중적으로 변화하는 특성이다. 이 논문은 이러한 희소한 변화가 추론 성능 향상의 핵심임을 밝혀냈다.