N-1 테스트
멀티 턴 대화 평가 시 이전의 모든 대화 맥락(N-1개 턴)을 고정된 데이터로 주입하고 마지막 응답만 생성하게 하여 평가하는 방식이다. 이는 에이전트의 오류가 다음 턴으로 전이되어 증폭되는 현상을 차단하고 특정 시점의 성능을 독립적으로 측정할 수 있게 한다.