정답 레이블
평가 데이터셋에서 정답으로 간주되는 기준 데이터입니다. 벤치마크의 신뢰성을 결정하는 핵심 요소로, 이 아티클에서는 기존 아랍어 벤치마크의 정답 레이블에 포함된 오류를 수정하여 평가의 정확도를 높이는 과정을 다룹니다.