친칠라 스케일링 법칙
모델 파라미터 수와 학습 데이터(토큰) 양, 그리고 가용 연산 자원(FLOPs) 사이의 최적의 관계를 정의한 법칙이다. 주어진 연산 예산 내에서 가장 낮은 손실 값을 얻기 위해 모델 크기와 데이터 양을 어떻게 배분해야 하는지 가이드를 제공한다.