검증 가능한 보상
LLM의 주관적인 판단이 아니라, 코드 실행이나 데이터베이스 상태 확인을 통해 객관적으로 도출되는 보상 신호이다. 에이전트의 행동이 목표를 달성했는지 0과 1로 명확히 판별할 수 있어 학습의 안정성을 높인다.