마스크 토큰
모델의 입력 시퀀스에서 특정 위치의 정보를 가리거나 비워두기 위해 사용하는 특수 토큰이다. 이 논문에서는 임베딩 공간에서 합성된 마스크 토큰을 주입하여 모델이 해당 위치의 미래 토큰을 예측하도록 유도하는 도구로 쓰인다.