본문으로 건너뛰기
LoCoMo 벤치마크 감사 결과: 정답지 오류 6.4% 및 LLM 판정기 신뢰도 문제 제기 | AI Trends