라이브벤치
LLM의 성능을 측정하기 위해 주기적으로 새로운 문제를 업데이트하여 오염(Contamination)을 방지하는 벤치마크 도구이다. 코딩, 수학, 논리 등 다양한 영역의 문제를 포함하며 모델의 실제 추론 능력을 객관적으로 평가한다. 최신 데이터셋을 사용하므로 모델이 학습 과정에서 미리 정답을 암기했을 가능성을 배제한다.