벤치마크 관행
벤치마크 관행은 어떤 테스트셋을 선택하고 결과를 보고하는 방식으로, 테스트셋 선정이나 시점이 결과 해석에 큰 영향을 미친다. 제조사는 자사 모델에 유리한 항목을 강조하기 쉬우며 상대 모델의 최신 버전과 비교하지 않으면 오해를 낳을 수 있다. 본 게시물은 Sol이 선택적 벤치마크와 오래된 Mythos Preview를 인용한 점에 의문을 제기한다.