미드 트레이닝
Pre-training과 Alignment 사이의 중간 학습 단계로, 고품질의 도메인 특화 데이터를 사용하여 모델에 특정 추론 능력을 주입하는 과정이다. 모델의 내부 가중치를 대대적으로 재구성하여 사후 강화학습의 효과를 극대화하는 기반을 마련하는 데 필수적이다.