본문으로 건너뛰기

disentangled-evaluation

분리된 평가

중급

전체 시스템 성능에서 에이전트의 추론 능력과 검색 엔진의 성능을 각각 독립적으로 측정하는 평가 방법론이다. BrowseComp-Plus와 같은 고정된 말뭉치를 사용함으로써 검색 엔진의 변동성을 제거하고 에이전트 자체의 성능을 공정하게 비교할 수 있게 한다.