본문으로 건너뛰기

agentic-rubric

에이전트 판정 루브릭

중급

각 태스크에 대해 Phase 1에서 고정된 행동 목표와 가중치를 산출하고 Phase 2에서 각 목표의 충족 여부를 이진으로 판단해 가중합으로 최종 점수를 산출하는 평가 기구로, 실행 증거와 저장소 검사를 결합하여 구현 세부가 다른 대체 해법도 동일 기준으로 비교 가능하게 만든다.