TL;DR
Multimodal-physics 평가 파이프라인의 구성 방식은 벤치마크 간 비교의 신뢰성에 직접적 영향을 미친다. 이 논문은 train–eval contamination, translation drift, MCQ saturation의 3가지 핵심 문제를 식별하고, 이를 해결하기 위한 3단계 audit와 4개의 공개 자산을 제시한다. 이를 통해 벤치마크 주도식 평가의 편향을 줄이고, train 데이터의 활용 가능성 및 일반화 가능성을 검증하는 방법론을 제공한다.
왜 중요한가
Multimodal-physics 평가 파이프라인의 구성 방식은 벤치마크 간 비교의 신뢰성에 직접적 영향을 미친다. 이 논문은 train–eval contamination, translation drift, MCQ saturation의 3가지 핵심 문제를 식별하고, 이를 해결하기 위한 3단계 audit와 4개의 공개 자산을 제시한다. 이를 통해 벤치마크 주도식 평가의 편향을 줄이고, train 데이터의 활용 가능성 및 일반화 가능성을 검증하는 방법론을 제공한다.
핵심 기여
Three-stage contamination audit pipeline
n-gram Jaccard audit(Stage 1) + embedding cosine audit(Stage 2) + Haiku-4.5 LLM-judge(Stage 3)를 통해 공개 physics-VL training pools의 중복/유사 사례를 식별한다. SciInstruct의 4,846 후보 중 134개가 근접 중복으로 분류되며, Stage-3 판정으로 최종 제거되는 중복 수가 결정된다.
Cross-language translation delta 연구
59쌍의 Estonian/English Olympiad 문제에서 Estonian 원문으로 학습된 Sonnet 4.5는 영어 번역 대비 30.5%의 strict 정확도, 영어 번역은 13.6%로 나타났다. 통계적 검정에서 p-value는 0.011(시그니퍼), McNemar exact p=0.021이며 95% 부트스트랩 CI는 [+5.1, +28.9] pp이다.
Format-and-novelty gradient 발견
동일 weights로 3개 벤치마크를 평가할 때 PhyX는 79.7%에서 OlympiadBench-Physics 50.4%, PHYSOLYM-A 33.4%로 점수 차이가 46 pp에 달한다. 이는 형식과 참신성의 차이가 frontier 모델에서 크게 작용함을 보여준다.
4개 Artifacts 공개 및 RL 레시피 제시
PHYSCORP-A(6,432), PHYSR1CORP(2,268), PHYSOLYM-A(500), Physics-R1(사전학습된 Qwen3-VL-8B-Thinking 기반의 GSPO+DAPO 레시피) 등 아티팩트를 공개하고, audit_three_stage.py를 통해 파생 파이프라인을 재현 가능하게 한다.
Binary correctness reward 채택 및 성능 향상
GSPO+DAPO 하에서 binary reward가 분산-타당성 측면에서 우수한 것으로 나타났다. step 60에서 PHYSOLYM-A liberal에서 +18.3 pp 상승, PhysReason, OlympiadBench-Physics에서도 개선을 확인한다.
핵심 아이디어 이해하기
단계적으로 중복과 근접 중복을 제거하는 기본 아이디어는, 먼저 텍스트 수준의 유사도를 빠르게 포착하고, 그 다음 의미론적 유사성을 Embedding 공간에서 탐색하며, 마지막으로 LLM-judge를 통해 정밀 판정을 내리는 것이다. Stage-1의 5-gram Jaccard는 명시적 중복을 포착하고, Stage-2의 mxbai-embed-large의 코사인 유사도는 재표현된 문제까지 포착한다. Stage-3의 Haiku-4.5는 근접 중복과 같은-topic-neighbor를 구분하여, 최종적으로 훈련 풀에서 중복 레코드를 제거한다. 이 3단계는 재현성 있는 오디트로, 다른 데이터풀과 평가풀 간의 교차 누출을 감소시키는 데 필요한 정밀 필터 역할을 한다. 또한 원문 언어(Language)와 번역 간의 차이가 실제 평가에 큰 영향을 줄 수 있음을 보여, 원문-언어 원천의 중요성을 강조한다. 마지막으로 physics-native 보상을 도입한 RL 레시피가 공개 코퍼스의 trainable 특성을 검증하고, 포괄적 평가를 가능하게 한다.
방법론
Stage 1 입력: 문제 서술 t, 외부 코퍼라 S Ek ∪ S Hj. 연산: t의 5-gram 셰들 제거 및 Jaccard 지표 Jmax(t) = maxx∈S Ek∪S Hj |St ∩ Sx| / |St ∪ Sx|를 계산한다. 출력: Jmax(t) ≥ τJ(=0.4)인 후보 집합 T1. 의미: 표본 간의 단순 중복 여부를 빠르게 식별한다. Stage 2 입력: t의 정규화된 문장 임베딩 et; 외부 후보 x의 임베딩 ex. 연산: Cmax(t) = maxx et^⊤ ex를 계산하고, Cmax(t) ≥ τC(=0.85) 또는 Jmax(t) ≥ τJ인 후보를 합친 집합 C(T) 생성. 출력: C(T). 의미: 재표현된 중복 및 같은 주제의 근접 내용을 더 포괄적으로 포착한다. Stage 3 입력: 각 t ∈ C(T)와 최상 매칭 x∗, Haiku-4.5 JUDGE(t, x∗)를 호출. 연산: JUDGE가 close-dup 또는 same-topic neighbor를 분류. 출력: R(T) = {t ∈ C(T) : JUDGE(t, x∗) = close-dup}. 의미: 실제 중복으로 간주될 사례만 제거한다. Stage 4 운영: T′ = T ingle R(T). 의미: 교란-문제 제거를 완료한 audited 풀을 생성한다. Thresholds 및 embedder/judge 구성은 Appendix A 참조. 임계값의 민감도 분석은 Threshold-Sensitivity( Table 4 )에서 제시된다.
주요 결과
Finding 1에서 세 단계 audit으로도 6개 공개 물리-VL eval 대비 Stage-1에서 0 hits를 보고하였으나 Stage-2에서 SciInstruct에서 4,846 쌍의 paraphrase 후보를 발견했고, UGPhysics-Train에서 9건, MMK12에서 66건의 후보를 발견했다. Stage-3 Haiku-4.5에 의해 4,846건 중 134건(2.8%)이 close-dup로 분류되었다. PHYSCORP-A의 최종 6,432 레코드 중 0/0 Stage-2 후보가 Stage-3에서 close-dup으로 제거되었고 PHYSR1CORP는 2,268 레코드로, 2,433 후보 중 MMMU-Pro/PhyX-mini/PhysUniBench-1 등의 near-duplicate를 165건 제거한 뒤 0/19를 같은-topic-neighbor로 분류했다. PHYSOLYM-A는 500문제로 구성되며 99.8%의 novel-source를 유지했고 0 Stage-3 near-dup를 확보했다. Translation delta 연구에서 Estonian 원문 vs English 번역 간의 문제에서 30.5% vs 13.6%의 strict 정확도 차이가 관찰되었으며(p=0.011; McNemar 0.021; 95% CI [+5.1, +28.9] pp). format-과-novelty gradient 연구에서 동일 가중치에서 PhyX-은 79.7%, OlympiadBench-Physics은 50.4%, PHYSOLYM-A는 33.4%로 나타나 46 pp의 차이가 확인됐다. Physics-R1은 PhyX-mini-MC의 1000-문제 세트를 hold-out으로 사용하고, step 60에서 8B base 대비 세Seed 평균으로 PHYSOLYM-A liberal에서 +18.3 pp, PhysReason에서 +15.7 pp, OlympiadBench-Physics에서 +6.9 pp, PhyX MCQ에서 +4.1 pp의 상승을 보인다. 이는 Audited corpus가 trainable임을 뒷받침하며, binary correctness reward가 전반적으로 더 안정적인 성능 향상으로 작용한다.
기술 상세
Architecture: Physics-R1은 GSPO+DAPO를 기반으로 Qwen3-VL-8B-Thinking BASE에서 cold-start한다. MM-Eureka의 난이도 커리큘럼을 사용하며, 보상은 binary correctness를 기본으로 한다. Stage-2에서 사용하는 임베딩 모델은 mxbai-embed-large-v1(1024-dim, L2-normalized)이다. Stage-3는 Haiku-4.5 LLM-judge를 사용하여 close-dup와 same-topic-neighbor를 구분한다. Stage-1은 5-gram Jaccard(임계치 0.4)로 중복 후보를 발굴하고 Stage-2에서 cosine 임계치 0.85 이상인 후보를 확장한다. Thresholds는 Appendix A의 보정표에 따른다. PHYSR1CORP는 MMMU-Pro Physics, PhyX-mini/PhysUniBench-en 등의 near-duplicate를 제거하고 Stage-3에서 0%의 close-dup를 확보한다. 3-seed 실험은 seeds {42, 17, 23}에서 수행되며, PHYSOLYM-A liberal에서 약 +18.3 pp 상승을 확인한다. Reward shape은 binary가 기본이며 dense는 ablation으로 제시된다. Embedding 비교로 voyage-3와 text-embedding-3-large 간의 민감도 분석도 수행하였다. Audit pipeline은 audit_three_stage.py로 제공된다.
한계점
Cross-lingual delta는 Sonnet-4.5에 특화된 현상으로, 저자들의 사전 등록에 따라 모델에 따라 방향이 바뀔 수 있다. 또한 PHYSOLYM-A는 hold-out로 설계되었으며, 번역/다국어 조건에서의 일반화는 추가 연구가 필요하다.
실무 활용
PHYSOLYM-A를 통한 비-포화 신호를 가진 측정 도구로 사용되며, contamination audit 방법론과 cross-lingual 평가, RL post-training에 활용 가능하다.
- contamination-aware evaluation for multimodal benchmarks
- contamination auditing을 위한 재현 가능한 파이프라인 구축
- cross-lingual evaluation에서 원문 언어의 영향 분석
- RL post-training에 audited corpus 활용 및 성능 증진 평가
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.