RULER 벤치마크
RULER. 단순 검색을 넘어 복잡한 문맥 이해와 다중 정보 참조 능력을 측정하기 위해 설계된 롱 컨텍스트 벤치마크이다. NIAH보다 훨씬 까다로운 시나리오를 제공하여 모델의 실질적인 긴 지문 처리 능력을 검증하며, 최근 롱 컨텍스트 모델들의 변별력을 높이는 표준 평가 도구로 자리 잡고 있다.