개방형 생성 평가
선택지 없이 모델이 자유롭게 텍스트를 생성하여 답변하는 방식이다. 모델의 실제 대화 능력을 더 잘 반영하지만, 답변의 유효성을 판단하기 위해 LLM-as-a-judge와 같은 추가적인 평가 메커니즘이 필요하다.