RULER
긴 컨텍스트를 가진 언어 모델의 성능을 평가하기 위한 벤치마크. 단순한 정보 검색(Needle-in-a-haystack)을 넘어 다중 홉 추론과 정보 집계 등 복합적인 과제를 통해 모델의 실제 긴 문맥 이해도를 측정한다.