핵심 요약
최근 AI 모델의 성능을 AI가 직접 평가하는 'AI 판사' 방식이 확산되고 있으나, 이들이 시각 정보를 무시하거나 텍스트에만 의존하는 심각한 편향이 있음이 밝혀졌다. 본 논문은 이러한 '구성적 편향'을 체계적으로 측정할 수 있는 벤치마크를 제시하여 더 공정하고 신뢰할 수 있는 AI 평가 시스템 구축의 기반을 마련했다.
왜 중요한가
최근 AI 모델의 성능을 AI가 직접 평가하는 'AI 판사' 방식이 확산되고 있으나, 이들이 시각 정보를 무시하거나 텍스트에만 의존하는 심각한 편향이 있음이 밝혀졌다. 본 논문은 이러한 '구성적 편향'을 체계적으로 측정할 수 있는 벤치마크를 제시하여 더 공정하고 신뢰할 수 있는 AI 평가 시스템 구축의 기반을 마련했다.
핵심 기여
MM-JudgeBias 벤치마크 구축
29개의 소스 벤치마크에서 추출한 1,804개의 고난도 샘플을 바탕으로 MLLM 판사의 구성적 편향을 측정하는 데이터셋을 구축했다.
구성적 편향의 체계적 정의
Integrality(통합성), Congruity(일치성), Robustness(강건성)라는 세 가지 차원에서 9가지 세부 편향 유형을 정의했다.
신규 평가 지표 BD 및 BC 제안
모델의 편향 민감도를 측정하는 Bias-Deviation(BD)과 안정성을 측정하는 Bias-Conformity(BC) 지표를 도입하여 다각도 분석을 가능하게 했다.
26종 최신 MLLM 전수 조사
Gemini-3-Pro, GPT-5.1 등 최신 폐쇄형 및 오픈소스 모델 26종을 대상으로 실험을 진행하여 모델 규모와 상관없이 편향이 광범위하게 존재함을 입증했다.
핵심 아이디어 이해하기
기존의 MLLM 평가는 주로 모델이 정답을 얼마나 잘 맞히는지에 집중했다. 하지만 '판사' 역할을 수행할 때는 단순히 정답을 맞히는 것을 넘어, 주어진 이미지(Image)와 질문(Query), 그리고 평가 대상 응답(Response) 사이의 논리적 정렬을 검증해야 한다. 만약 판사 모델이 이미지를 보지 않고도 높은 점수를 주거나, 질문과 상관없는 답변에 만점을 준다면 이는 평가 도구로서 자격이 부족한 것이다.
본 논문은 이를 '구성적 편향(Compositional Bias)'으로 정의한다. 이는 딥러닝의 핵심인 멀티모달 임베딩 통합 과정에서 특정 모달리티가 지배적인 영향력을 행사하거나, 입력값 사이의 상호작용을 무시할 때 발생한다. 예를 들어 Attention Mechanism이 이미지 토큰보다 텍스트 토큰에만 과도하게 집중하면, 이미지가 검은색 화면으로 대체되어도 모델은 텍스트의 유창함만 보고 높은 점수를 부여하게 된다.
결과적으로 최신 모델들조차 이미지가 질문과 전혀 맞지 않는 상황에서 점수를 깎지 못하는 등 심각한 결함을 보였다. 이는 모델의 추론 능력이 높다고 해서 반드시 공정한 판사가 될 수 없음을 의미하며, 평가 전용 모델을 설계할 때 모달리티 간의 엄격한 일치성을 강제하는 메커니즘이 필수적임을 시사한다.
방법론
MM-JudgeBias는 MLLM 판사가 쿼리(Q), 이미지(I), 응답(R)을 얼마나 유기적으로 결합하는지 평가하기 위해 세 가지 핵심 차원을 설계했다. 첫째, Integrality는 필수 요소가 누락되었을 때 점수를 낮추는지 평가한다. 둘째, Congruity는 요소 간의 의미적 모순을 감지하는지 확인한다. 셋째, Robustness는 의미가 보존된 변형(이미지 회전, 텍스트 삽입 등)에도 점수를 일정하게 유지하는지 측정한다.
평가 지표로는 BD와 BC를 사용한다. BD(Bias-Deviation)는 원본 점수 y와 편향이 주입된 점수 y^의 차이를 (y-y^)/(y-1)로 계산하여, 부적절한 상황에서 점수를 얼마나 적절히 깎았는지 수치화한다. BC(Bias-Conformity)는 1 - |y-y^|/max(y-1, S-y) 공식을 통해 무의미한 변화에도 평가 기준을 유지하는지 측정한다. [입력값: 원본 및 변형된 샘플의 점수 쌍 → 연산: 점수 변화량의 정규화 및 평균 → 출력 의미: 1에 가까울수록 편향에 강하고 신뢰할 수 있는 판사임을 의미]
데이터 구축 과정에서는 인간-AI 협업 파이프라인을 활용했다. o4-mini를 통해 복잡한 쿼리를 생성하고, 이를 인간 검수자가 필터링하여 시각 정보 없이는 절대 풀 수 없는 고난도 문제를 확보했다. 또한 9가지 편향 유형별로 이미지를 검은색으로 바꾸거나(Text-Dominance), 질문과 무관한 이미지를 넣는(Image-Misalignment) 등 정교한 섭동(Perturbation) 전략을 적용했다.
주요 결과
실험 결과, Gemini-3-Pro(high) 모델이 평균 0.869점으로 가장 높은 신뢰도를 보였으나, 대부분의 모델이 특정 편향에 취약했다. 특히 'Response-Dominance' 시나리오에서 많은 모델이 이미지와 질문이 모두 제거된 상태에서도 응답의 유창함만 보고 만점에 가까운 점수를 주는 경향이 확인됐다. 이는 모델들이 텍스트 통계적 상관관계에 과도하게 의존하고 있음을 보여준다.
모델의 규모나 일반적인 추론 성능이 반드시 판사로서의 신뢰도와 비례하지는 않았다. 예를 들어 강력한 추론 모델인 o3(high)는 0.675점에 그쳐 Gemini-3-Pro보다 낮은 신뢰도를 보였다. 이는 판사 역할을 수행하기 위해서는 단순한 지능 외에도 각 모달리티를 엄격하게 대조하는 별도의 학습이나 프롬프트 전략이 필요함을 입증한다.
프롬프트 엔지니어링을 통한 개선 실험에서는 'Modality Reasoning' 전략이 효과적이었다. 판사 모델에게 각 모달리티를 단계적으로 검토하도록 지시했을 때, GPT-5 mini의 경우 성능이 0.612에서 0.645로 향상됐다. 하지만 이러한 개선조차 강건성(Robustness) 측면에서는 오히려 성능을 떨어뜨리는 트레이드오프 현상이 관찰되어, 편향 제거를 위한 보다 근본적인 아키텍처 개선이 필요함이 드러났다.
기술 상세
본 연구는 MLLM-as-a-Judge의 신뢰성을 수학적으로 정의하기 위해 (Q, I, R) 트리플렛 구조를 제안했다. 판사 모델 fθ는 fθ:(Q, I, R) → y (y ∈ {1, ..., 10}) 함수로 정의되며, 이상적인 판사는 Q, I, R 중 하나라도 결여되거나 모순될 경우 점수를 낮추어야 한다. 이를 위해 Integrality와 Congruity 차원에서는 점수 하락을 유도하는 섭동을 가하고 BD 지표로 민감도를 측정했다.
구현 측면에서 26종의 모델을 Closed-source, Open-source, Critic 전용 모델로 분류하여 비교 분석했다. 특히 LLaVA-Critic과 같은 평가 특화 모델들이 일반 모델보다 높은 신뢰도를 보였으나, 여전히 시각적 노이즈나 텍스트 삽입과 같은 Robustness 관련 편향에는 취약한 모습을 보였다. 이는 기존의 Critic 모델 학습 데이터셋이 구성적 편향을 충분히 다루지 못하고 있음을 시사한다.
또한 'Self-enhancement Bias' 분석을 통해 모델이 자신이 생성한 답변에 더 높은 점수를 주는 경향을 수치화했다. 이는 평가 모델과 생성 모델이 동일할 경우 평가의 객관성이 심각하게 훼손될 수 있음을 보여주는 기술적 근거가 된다. 연구팀은 이를 방지하기 위해 평가 프로세스에서 모달리티별 독립적 검증 단계를 거치는 'Modality-enforcing Prompting'의 중요성을 기술적으로 논증했다.
한계점
본 연구는 주로 시각-언어 상호작용에 초점을 맞추었으며, 문화적, 사회적, 지리적 편향과 같은 다면적인 편향은 다루지 않았다. 또한 현재의 벤치마크는 포인트 방식(Pointwise) 채점에 최적화되어 있어, 순위 비교(Pairwise)나 배치 랭킹 시나리오에서의 편향 패턴은 향후 연구 과제로 남겨두었다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.