disentangled-evaluation
분리된 평가
전체 시스템 성능에서 에이전트의 추론 능력과 검색 엔진의 성능을 각각 독립적으로 측정하는 평가 방법론이다. BrowseComp-Plus와 같은 고정된 말뭉치를 사용함으로써 검색 엔진의 변동성을 제거하고 에이전트 자체의 성능을 공정하게 비교할 수 있게 한다.
분리된 평가
전체 시스템 성능에서 에이전트의 추론 능력과 검색 엔진의 성능을 각각 독립적으로 측정하는 평가 방법론이다. BrowseComp-Plus와 같은 고정된 말뭉치를 사용함으로써 검색 엔진의 변동성을 제거하고 에이전트 자체의 성능을 공정하게 비교할 수 있게 한다.