LLM 벤치마크
대형 언어 모델의 성능을 특정 기준에 따라 측정하고 비교하는 테스트 세트이다. 본문에서는 'Baldur's Gate' 게임 지식을 테스트하기 위해 'BaldurBench'라는 임의의 벤치마크를 생성하여 모델들을 비교했다.