BPE 토크나이저
자주 등장하는 문자 쌍을 반복적으로 병합하여 단어를 서브워드 단위로 분절하는 알고리즘이다. 어휘 사전 크기를 조절하면서도 미등록 단어 문제를 해결할 수 있어 대부분의 LLM에서 사용된다.