본문으로 건너뛰기

hellaswag

헬라스왜그

중급

상식적 추론 능력을 측정하기 위한 벤치마크 데이터셋이다. 문장의 마지막 부분을 가장 자연스럽게 완성하는 보기를 고르는 방식으로 모델의 실질적인 문맥 이해도를 평가한다.