ICML 2026 리뷰 정책 논쟁: 100명의 응답자가 보여주는 정책 B의 높은 점수와 정책 A의 높은 신뢰도

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

ICML 2026 리뷰 정책 설문 결과, 허용적 정책(Policy B)이 보수적 정책(Policy A)보다 평균 점수는 높지만 리뷰어 신뢰도는 낮은 것으로 나타났다.

배경

ICML 2026의 두 가지 리뷰 정책(Policy A vs Policy B)이 실제 리뷰 점수와 신뢰도에 어떤 영향을 미쳤는지 파악하기 위해 작성자가 실시한 커뮤니티 설문 조사 결과를 공유했다.

의미 / 영향

리뷰 정책의 차이가 실제 점수 분포와 리뷰어의 주관적 확신에 유의미한 차이를 만든다는 점이 커뮤니티 데이터를 통해 확인됐다. 이는 향후 학술 대회에서 LLM 활용 가이드라인과 리뷰 공정성 설계를 최적화하는 데 중요한 기초 자료가 될 것이다.

커뮤니티 반응

대체로 결과에 흥미를 보이고 있으며, 특히 LLM 사용이 리뷰의 신뢰도를 떨어뜨릴 수 있다는 분석에 대해 활발한 토론이 진행 중이다.

주요 논점

01중립다수

Policy B가 점수 면에서 유리해 보이지만, 설문 데이터의 자가 선택 편향(Self-selection bias) 가능성을 고려해야 한다.

02찬성소수

LLM을 활용한 리뷰는 겉보기에는 정교해 보일 수 있으나 실제 내용의 깊이나 신뢰도는 떨어질 수 있다는 데이터 결과에 동의한다.

합의점 vs 논쟁점

합의점

현재 데이터는 예비적인 성격이며 인과관계를 확정하기에는 샘플 크기가 부족하다.
리뷰 정책에 따라 저자들이 느끼는 공정성 체감에 차이가 존재한다.

논쟁점

Policy B의 높은 점수가 실제 논문의 질적 우수성 때문인지, 아니면 LLM에 의한 점수 인플레이션 때문인지에 대한 의견이 갈린다.

실용적 조언

리뷰어 신뢰도가 낮게 측정된 경우 LLM에 의한 자동화된 리뷰일 가능성을 염두에 두고 반박(Rebuttal) 전략을 세워야 한다.
학술 대회 투고 시 각 정책의 특성을 이해하고 자신의 논문 성격에 맞는 정책을 신중히 선택할 필요가 있다.

섹션별 상세

Policy B(허용적 정책)의 평균 점수가 3.43으로 Policy A(보수적 정책)의 3.26보다 높게 집계됐다. 설문 응답자 100명의 데이터를 분석한 결과 두 정책 간 약 0.17점의 유의미한 차이가 발생했다. 이는 리뷰 정책의 선택이 논문의 당락을 결정짓는 임계값 근처에서 실질적인 영향을 미칠 수 있음을 시사한다.

Policy A와 Policy B의 리뷰 점수 분포를 비교한 히스토그램 — ChartPolicy B는 4.0-4.4 구간에서 높은 빈도를 보이는 반면, Policy A는 3.2-3.6 구간에 집중되어 있다. 이는 정책 선택에 따라 실제 부여된 점수대에 뚜렷한 차이가 있음을 시각적으로 증명한다.

리뷰어 신뢰도는 반대로 Policy A(3.53)가 Policy B(3.35)보다 높게 나타나는 역상관 관계가 확인됐다. Policy B에서 LLM 등 외부 도구를 활용해 리뷰를 작성할 경우, 리뷰어 스스로가 자신의 분석에 대해 가지는 확신이 낮아질 수 있다는 가설이 제기됐다. 이는 정교한 문체와 실제 기술적 이해도 사이의 괴리를 보여주는 지표로 해석된다.

리뷰의 문체적 완성도(Polished) 면에서 Policy B가 Policy A보다 훨씬 긍정적인 평가를 받았다. Policy B 응답자의 31.7%가 리뷰가 매우 정교하다고 답한 반면 Policy A는 13.6%에 그쳐 두 배 이상의 격차를 보였다. 이는 LLM이 리뷰의 가독성을 높이는 데 기여했으나, 그것이 반드시 리뷰의 질적 향상이나 신뢰도 상승으로 이어지지는 않았음을 의미한다.

대다수 응답자가 자신의 논문 점수가 예상보다 가혹하다고 평가했으며 특히 Policy A 그룹에서 불만이 더 컸다. Policy A 선택 시 67.8%가 가혹함을 느꼈고, Policy B는 58.5%로 상대적으로 낮았다. 실제 점수 데이터와 주관적 체감이 일치함에 따라 정책의 공정성에 대한 커뮤니티 내 논쟁이 가속화됐다.

정책별 리뷰 점수의 가혹함에 대한 체감 분포 차트 — ChartPolicy A 응답자들이 '예상보다 훨씬 가혹함(Much harsher than expected)'을 선택한 비율이 Policy B보다 높게 나타난다. 이는 Policy A 그룹의 낮은 평균 점수가 저자들의 주관적 불만족으로 직결되었음을 보여준다.

실무 Takeaway

ICML 2026 설문 분석 결과, LLM 활용이 비교적 자유로운 Policy B가 Policy A보다 평균 점수는 높지만 리뷰어 신뢰도는 낮게 형성되는 경향이 확인됐다.
Policy B에서 작성된 리뷰가 문체적으로 더 정교하다는 응답이 많았으나, 이는 리뷰어의 실제 확신보다는 외부 도구의 보정 효과일 가능성이 크다는 분석이 제시됐다.
두 정책 모두에서 저자들은 기대보다 낮은 점수를 받았다고 느끼고 있으며, 특히 보수적인 Policy A를 선택한 그룹에서 불공정성에 대한 체감이 더 높게 나타났다.

언급된 도구

LLM중립

리뷰 작성 보조 및 문체 정교화

언급된 리소스

문서ICML 2026 Policy A vs Policy B Impact on Scores (Original Thread)