핵심 요약
주요 AI 학회에서 코드나 증거 없이 SOTA 성능을 주장하는 논문들이 통과되는 현상과 그로 인한 재현성 및 신뢰도 저하 문제를 비판했다.
배경
주요 머신러닝 컨퍼런스에서 코드 공개 없이 성능 수치만 제시하는 논문들이 늘어나자, 연구의 진위 확인이 불가능한 상황에 대해 문제를 제기했다.
의미 / 영향
이 토론은 AI 학계가 성능 지표 중심의 경쟁에서 벗어나 재현성과 투명성을 우선시하는 문화로 회귀해야 함을 시사한다. 특히 학회 차원에서 코드 및 모델 체크포인트 제출을 강제하는 정책적 변화가 실질적인 해결책으로 요구된다.
커뮤니티 반응
작성자의 의견에 크게 공감하며, 학계 전반의 재현성 위기에 대한 우려가 확산되고 있다. 많은 사용자가 유사한 경험을 공유하며 학회의 정책 변화를 촉구했다.
주요 논점
01찬성다수
코드와 데이터 공개를 논문 채택의 필수 조건으로 의무화하여 재현성을 보장해야 한다.
합의점 vs 논쟁점
합의점
- 코드 없는 논문은 과학적 가치가 현저히 떨어진다
- 거대 모델의 재현 불가능성은 학계의 불평등을 심화시킨다
논쟁점
- 기업 연구소의 보안 및 지식재산권 문제와 오픈 소스 의무화 사이의 충돌
실용적 조언
- 논문을 읽기 전 깃허브 저장소의 실제 코드 포함 여부와 커밋 기록을 먼저 확인하라
- 재현 가능한 연구를 위해 오픈 소스 프레임워크와 데이터셋을 적극 활용하라
전문가 의견
- 연구의 투명성이 보장되지 않으면 AI 분야의 발전은 수치상의 신기루에 불과할 것이라는 비판이 제기됐다
섹션별 상세
주요 학회 논문들이 코드나 실질적인 증거 없이 승인되는 사례가 빈번하다는 점을 지적했다. 특히 거대 모델의 경우 학습 비용이 매우 높아 타 연구자가 처음부터 다시 학습시켜 결과를 검증하는 것이 사실상 불가능하다는 점이 문제의 핵심이다. 이러한 구조적 한계로 인해 연구자들은 논문에 제시된 수치를 맹목적으로 믿어야 하는 상황에 처해 있다.
코드 미공개로 인해 발생할 수 있는 세 가지 주요 위험성을 제시했다. 결과의 완전한 조작 가능성, 테스트 데이터에 대한 학습(Data Leakage), 그리고 방법론상의 평가 오류 등을 외부에서 전혀 확인할 길이 없다는 점을 강조했다. 이는 과학적 방법론의 근간인 검증 가능성을 심각하게 훼손하는 행위로 간주됐다.
논문 본문이나 OpenReview 페이지에 깃허브 링크를 포함하고도 실제로는 존재하지 않거나 비어 있는 저장소인 경우가 많다는 점을 비판했다. 이는 리뷰어와 독자를 기만하는 행위이며 학계의 신뢰도를 떨어뜨리는 주요 요인으로 꼽혔다. 저자들이 코드 공개 일정을 명시하지 않거나 이슈 제기에 응답하지 않는 무책임한 태도도 문제로 언급됐다.
구체적인 사례로 RAG를 이용한 단백질 MSA(Multiple Sequence Alignment) 생성 논문을 언급했다. 해당 논문은 기존 소프트웨어보다 수십 배 빠르다고 주장하며 많은 연구자의 관심을 끌었으나, 정작 공개된 깃허브 저장소는 비어 있고 저자들은 소통을 거부하고 있다. 이는 실질적으로 유용한 도구를 기대했던 연구 공동체에 큰 실망을 안겨준 사례이다.
실무 Takeaway
- AI/ML 학계에서 코드 공개 없는 SOTA 주장은 검증이 불가능하여 신뢰하기 어렵다.
- 거대 모델 학습의 높은 비용이 연구 재현성을 가로막는 경제적 장벽으로 작용하고 있다.
- 학회 리뷰 과정에서 깃허브 저장소의 실제 가용성에 대한 엄격한 검증 절차가 필요하다.
- 빈 저장소 링크를 제공하는 행위는 연구 윤리 측면에서 심각한 기만 행위이다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료