본문으로 건너뛰기
hellaswag
헬라스왜그
중급
상식적 추론 능력을 측정하기 위한 벤치마크 데이터셋이다. 문장의 마지막 부분을 가장 자연스럽게 완성하는 보기를 고르는 방식으로 모델의 실질적인 문맥 이해도를 평가한다.
비슷한 개념
lm-eval
benchmarking
longbench
longbench-v2
gaia-benchmark
benchmarks
rewardbench
long-mem-eval-s
← 용어 사전 전체 보기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지