블루 스코어
기계 번역이나 생성된 텍스트가 사람이 작성한 참조 텍스트와 얼마나 유사한지 측정하는 지표이다. n-gram 정밀도를 기반으로 계산하며, 코드 리뷰 생성 모델의 정확도를 평가하는 데 사용된다.