OS월드
운영체제(OS) 환경에서 웹 브라우징, 파일 관리 등 실제 컴퓨터 사용 작업을 수행하는 에이전트의 능력을 평가하는 오픈소스 벤치마크이다. 텍스트 기반 평가를 넘어 시각적 요소와 상호작용하는 멀티모달 에이전트의 실무 능력을 측정하는 표준으로 활용된다.