우롱 데이터셋
긴 컨텍스트를 처리하는 에이전트의 성능을 측정하기 위해 설계된 벤치마크 데이터셋이다. 대량의 텍스트 데이터 내에서 특정 정보를 찾거나 복합적인 추론을 수행하는 능력을 평가하는 데 사용된다.