롱벤치-v2
긴 문맥을 처리하는 LLM의 성능을 측정하기 위한 벤치마크 데이터셋이다. 긴 문서 이해, 요약, 질의응답 등 복잡한 장문 맥락에서의 모델 추론 능력을 평가하는 지표로 활용된다.