BrowseComp
AI 모델이 웹 브라우저를 통해 정보를 검색하고 여러 페이지에 걸친 복잡한 추론 과정을 거쳐 정답을 찾아내는 능력을 평가하는 지표이다. 단순 검색을 넘어 에이전트로서의 자율적 웹 활용 능력을 측정한다.