ProactiveBench: 멀티모달 대형 언어 모델의 능동성 벤치마킹

왜 중요한가

기존 AI는 정보가 부족할 때 환각을 일으키거나 단순히 모른다고 답하는 데 그쳤으나, 이 논문은 AI가 스스로 정보를 얻기 위해 사용자에게 행동을 요청하는 능동성을 제안한다. 이는 AI가 수동적 도구를 넘어 협력적 파트너로 진화하는 데 필수적인 연구 방향을 제시한다.

핵심 기여

ProactiveBench 벤치마크 구축

7가지 기존 데이터셋을 재구성하여 물체 가림 해소, 카메라 이동 요청 등 19가지 능동적 행동을 평가할 수 있는 18,000개 샘플 규모의 벤치마크를 제안함.

최신 MLLM의 능동성 결여 확인

22종의 최신 MLLM을 평가한 결과, 대부분의 모델이 능동성이 매우 부족하며 모델 크기와 능동성 사이에 유의미한 상관관계가 없음을 실험적으로 증명함.

강화학습을 통한 능동성 학습 가능성 입증

GRPO 기반의 사후 학습을 통해 모델이 능동적 행동을 학습할 수 있으며, 학습하지 않은 도메인에서도 이러한 능력이 일반화됨을 보여줌.

핵심 아이디어 이해하기

딥러닝 모델은 입력 데이터의 특징을 추출하여 사전에 정의된 클래스 확률 분포를 계산한다. 하지만 입력 이미지에 정보가 누락된 경우, Softmax 출력값들이 특정 클래스에 집중되지 못하고 분산되는데, 기존 모델은 이 중 가장 높은 확률을 가진 오답을 선택하거나 단순히 모른다고 답하는 한계가 있다. 이 논문은 모델이 단순히 답을 내놓는 대신, 환경을 변화시켜 정보를 보충할 수 있는 능동적 제안을 선택지로 포함한다. 예를 들어 파란 블록 뒤에 무엇이 있는지 묻는 질문에 블록을 치워달라고 요청하여 새로운 시각적 피드백을 유도하는 방식이다. 실험 결과 현재 모델들은 정보를 더 요청하기보다 틀린 답을 내놓는 경향이 강하지만, 강화학습을 통해 정답을 맞혔을 때와 유효한 도움을 요청했을 때에 보상을 주면 모델은 불확실한 상황에서 스스로 행동을 제안하는 법을 배울 수 있다.

방법론

ProactiveBench는 ROD, VSOD 등 7개 데이터셋을 활용해 18,000개의 샘플을 생성하며, 각 샘플은 정보가 부족한 초기 프레임과 정보가 완전한 참조 프레임 사이의 연속적인 상태 변화를 포함한다. 평가는 객관식(MCQA)과 주관식(OEG)으로 나뉘며, MCQA에서는 모델이 정답 카테고리, 거절, 또는 능동적 제안 중 하나를 선택하고 제안 시 환경이 다음 프레임으로 업데이트되는 마르코프 결정 과정으로 모델링된다. 강화학습 단계에서는 GRPO를 사용하여 정답 여부 rc와 제안의 유효성 rp를 입력으로 보상을 결정한다. rc=1이면 정답 보상, rp가 0.5에서 1.0 사이면 유효한 제안 보상을 부여하는 연산을 수행하여, 모델이 무조건적인 정답 추측보다 불확실할 때 도움을 요청하는 것이 더 높은 기대 보상을 얻음을 학습하도록 유도한다.

주요 결과

22개 모델 평가 결과, 정보가 명확한 참조 이미지 대비 능동성이 필요한 상황에서 정확도가 60% 이상 급감했으며, 특히 ROD 데이터셋에서 참조 시 98.3%였던 정확도가 능동적 환경에서는 8.2%까지 떨어졌다. 모델 크기와 성능은 비례하지 않았으며, InternVL3-1B가 8B 모델보다 더 높은 능동성을 보였는데 이는 모델의 지능보다 거절 빈도가 낮은 특성 때문으로 분석됐다. RL 파인튜닝 결과 LLaVA-NeXT-Mistral-7B의 평균 정확도가 4.5%에서 40.7%로 향상되었고, 학습하지 않은 데이터셋인 CIT에서도 정확도가 17.2%에서 58.1%로 상승하며 강력한 일반화 성능을 입증했다.

실무 활용

시각 정보가 제한적인 로봇 제어, 시각 장애인 보조 도구, 대화형 AI 에이전트 개발 시 AI가 사용자에게 구체적인 피드백을 요청하는 기능을 구현하는 데 활용될 수 있다.

로봇이 가려진 물체를 찾기 위해 사용자에게 장애물 제거 요청
시각 보조 도구가 정확한 인식을 위해 카메라 각도 조절 가이드 제공
AI 에이전트가 정보 부족 시 추가 사진이나 상세 설명을 사용자에게 요구

기술 상세

ProactiveBench는 MDP 프레임워크를 도입하여 MLLM의 상호작용 능력을 측정하며, 상태 공간은 이미지와 유효한 행동 집합으로 구성되고 정책은 질문과 현재 상태를 기반으로 행동을 결정한다. 필터링 파이프라인을 통해 첫 번째 턴에서 쉽게 맞출 수 있는 샘플을 제거하여 반드시 능동적 개입이 필요한 7,557개의 고난도 샘플을 정제했다. OEG 평가를 위해 Qwen3-8B를 판정관으로 활용하여 모델의 자유로운 텍스트 응답이 유효한 능동적 제안인지 혹은 정답 카테고리인지를 의미론적으로 평가하며, 이는 단순 키워드 매칭보다 높은 신뢰도를 제공한다.

한계점

모델이 참조 이미지를 보게 되더라도 여전히 분류에 실패하는 경우가 존재하며, 강화학습 이후 모델이 정답을 맞히기보다 능동적 제안을 과도하게 남발하여 효율성을 떨어뜨리는 경향이 관찰됨.

키워드

MLLM(멀티모달 대형 언어 모델)Proactive Behavior(능동적 행동)Benchmark(벤치마크)GRPO(그룹 상대 정책 최적화)Active Vision(능동적 시각)

코드 예제

text

System Prompt:
You are an automatic evaluation system.

You will receive:
- A user prompt
- A list of correct answers (JSON list of strings)
- A system output

Your task:
For each correct answer, determine whether the system output expresses the same idea, action, or requirement.

Evaluation principles:
1. Semantic equivalence is sufficient.
- The wording does NOT need to match exactly.
- Functional equivalence counts as correct.
- If the system output describes an action that necessarily implies the correct answer, count it as present.

2. Implicit but clear implications count as correct.
- If the output describes the mechanism required to achieve the correct answer’s goal, count it as present.
- Example: "change perspective" can imply "move the camera."

3. Do NOT require exact phrasing.

4. Only mark 0 if:
- The idea is clearly absent
- The idea is contradicted
- The answer is negated

MLLM의 주관식 응답이 유효한 능동적 제안인지 평가하기 위해 사용된 LLM-as-a-judge의 시스템 프롬프트