다지선다형 질문
여러 개의 선택지 중 정답을 고르는 평가 방식입니다. LLM 평가에서 가장 흔히 사용되지만, 정답이 눈에 보이기 때문에 모델의 실제 생성 능력이나 깊이 있는 추론 능력을 과대평가할 위험이 있다는 한계가 있습니다.