왜 중요한가
기존의 정적 벤치마크는 모델이 주어진 정보에만 답하는 수동적 능력을 측정할 뿐, 실제 세상에서 필요한 능동적 정보 수집과 전략적 사고를 평가하지 못한다. 이 논문은 모델이 스스로 질문하고 예산을 관리하며 문제를 해결하는 '대화형 평가'를 도입하여, 기존 방식이 모델의 실제 능력을 최대 50%까지 과소평가하고 있음을 밝혀냈다.
핵심 기여
Interactive Benchmarks 프레임워크 제안
모델이 예산 제약 하에서 환경과 상호작용하며 정보를 획득하고 의사결정을 내리는 과정을 Horizon-T 순차적 결정 프로세스로 정형화함.
Interactive Proofs를 통한 논리 및 수학 평가
Situation Puzzle과 고난도 수학 문제를 활용하여 모델이 판사(Judge)에게 질문을 던져 가설을 검증하고 오류를 수정하며 정답에 수렴하는 능력을 측정함.
Interactive Games를 통한 전략적 사고 평가
포커와 신뢰 게임 환경을 구축하여 불완전 정보 상황에서 상대방의 심리를 모델링하고 장기적 효용을 극대화하는 모델의 전략적 적응력을 분석함.
기존 정적 평가의 한계 입증
동일한 추론 예산 하에서 대화형 평가가 기존 pass@k 방식보다 모델의 잠재력을 훨씬 더 정확하게 포착하며, 상호작용 없이는 해결 불가능한 과제들을 통해 지능의 새로운 측면을 제시함.
핵심 아이디어 이해하기
기존의 LLM 평가는 시험지를 풀듯 고정된 질문에 답을 내놓는 방식에 머물러 있다. 하지만 진정한 지능은 자신이 무엇을 모르는지 인지하고, 필요한 정보를 얻기 위해 적절한 질문을 던지며, 피드백에 따라 전략을 수정하는 과정에서 드러난다. 본 논문은 이러한 '능동적 정보 획득'을 지능의 핵심으로 정의하고, 이를 측정하기 위해 모델을 상호작용의 주체로 설정한다.
이 프레임워크는 모델을 증명자(Prover)로, 환경을 검증자(Verifier)로 배치한다. 모델은 Attention 메커니즘을 통해 과거의 대화 이력을 참조하며, 현재 상태에서 가장 정보 가치가 높은 행동이 무엇인지 판단해야 한다. 예를 들어 수학 문제에서 중간 단계의 수식이 맞는지 판사에게 확인받음으로써 잘못된 추론 경로를 조기에 차단하고 연산 자원을 효율적으로 배분하는 원리다.
결과적으로 이 방식은 모델이 단순히 학습 데이터의 패턴을 암기해 출력하는 것을 넘어, 실시간으로 주어지는 제한된 피드백을 바탕으로 논리적 구조를 재구성하게 만든다. 이는 정적인 데이터셋에서는 발견할 수 없었던 모델의 자가 수정 능력과 전략적 유연성을 수면 위로 끌어올리는 역할을 한다.
방법론
Interactive Benchmarks는 모든 인스턴스를 모델 와 환경 사이의 상호작용으로 모델링한다. 각 라운드 에서 모델은 이력 를 관찰하고 행동 를 선택하며, 환경은 관찰값 과 보상 를 반환한다. 이 과정은 모델이 최종 답안을 제출하거나 할당된 예산이 소진될 때까지 지속된다.
Interactive Proofs 설정에서는 숨겨진 정답 가 존재하며, 모델은 예/아니오 형태의 질문을 통해 불확실성을 줄여야 한다. [모델의 질문 와 그에 따른 비용 를 입력으로] → [총 비용이 예산 를 초과하지 않도록 합산 연산을 수행해] → [최종 제출한 답안 가 실제 정답 와 일치하는지 확인하고] → [이 확률을 최대화하는 정책을 평가 지표로 삼는다].
Interactive Games 설정에서는 전용 판사 대신 다른 에이전트들과 상호작용한다. [라운드별 보상 와 할인 계수 를 입력으로] → [시간 흐름에 따른 보상의 가중 합산인 를 계산해] → [장기적인 기대 효용을 도출하고] → [불확실한 상대의 전략에 대응하여 이 가치를 극대화하는 능력을 측정한다]. 특히 포커에서는 칩 수익률과 VPIP(자발적 판 참여율)를, 신뢰 게임에서는 협력률과 배신율을 주요 지표로 활용한다.
주요 결과
Situation Puzzle 실험 결과, 상호작용 없이 문제를 풀 확률은 모든 모델에서 0.00%로 나타나 능동적 정보 획득의 중요성을 확인했다. 대화형 환경에서 Gemini-3-flash가 30.4%의 정확도로 1위를 기록했으며, Kimi-k2-thinking은 평균 12.3턴 만에 정답에 도달하여 가장 높은 효율성을 보였다.
수학 문제(HLE 데이터셋) 평가에서는 Grok-4.1-fast가 76.9%의 정확도로 가장 우수한 성능을 보였다. 특히 동일한 토큰 예산을 할당했을 때, 대화형 평가 방식이 기존의 독립적 샘플링 방식인 pass@k보다 성능이 20~50% 더 높게 측정되었다. 이는 모델이 중간 단계에서 피드백을 받아 오류를 수정할 수 있을 때 자신의 능력을 더 잘 발휘함을 의미한다.
게임 환경에서는 Gemini-3-flash가 포커에서 가장 안정적인 수익(핸드당 31.8달러)을 기록하며 균형 잡힌 전략을 보여주었다. 신뢰 게임에서는 Qwen3-max와 GPT-5-mini가 97% 이상의 높은 협력률을 유지하며 휴리스틱 베이스라인(Grim Trigger, Tit-for-Tat)을 능가하는 성과를 거두었다. 반면 DeepSeek-v3.2는 포커와 신뢰 게임 모두에서 보수적이고 방어적인 성향을 보이며 상대적으로 낮은 수익을 기록했다.
실무 활용
이 벤치마크는 자율 에이전트의 의사결정 효율성을 정밀하게 측정하고 개선하는 데 실질적인 지침을 제공한다. 특히 예산 제약 하에서 최적의 질문을 던지는 능력을 평가함으로써 상업용 AI 에이전트의 운영 비용 최적화에 기여할 수 있다.
- AI 코딩 에이전트가 버그 수정을 위해 사용자에게 필요한 정보를 되묻는 전략 평가
- 고객 지원 봇이 최소한의 대화로 사용자의 의도를 파악하는 효율성 벤치마킹
- 복잡한 다단계 추론이 필요한 금융 및 법률 분석 에이전트의 자가 수정 능력 검증
- 멀티 에이전트 시스템에서 협력 및 경쟁 전략의 안정성 테스트
기술 상세
본 연구는 지능 평가를 정적인 매핑 문제에서 동적인 제어 문제로 전환한다. Interactive Proofs 시스템은 모델이 가설 공간을 효율적으로 이분(Bisect)하여 정보 이득을 극대화하도록 설계되었다. 질문의 응답 범위를 {yes, no, both, irrelevant}로 엄격히 제한함으로써 모델이 단순한 힌트 유도가 아닌 논리적 제약 조건을 축적하도록 강제한다.
수학적 평가에서 도입된 '예산 매칭(Budget-matched)' 방법론은 추론 시 사용된 총 토큰 수를 기준으로 pass@k와 대화형 평가를 비교한다. 이는 모델이 한 번에 긴 답안을 내놓는 것보다, 짧은 대화를 여러 번 주고받으며 방향을 수정하는 것이 연산 자원 대비 더 높은 정확도를 달성할 수 있음을 이론적, 실험적으로 뒷받침한다.
게임 이론적 측면에서 Trust Game은 무작위 종료 확률 를 도입하여 기하 분포를 따르는 무한 반복 게임을 구현했다. 이를 통해 모델이 고정된 종료 시점을 악용하는 것을 방지하고, 실제 사회적 상호작용과 유사한 장기적 신뢰 구축 및 배신 대응 전략을 평가할 수 있는 환경을 조성했다.
한계점
Situation Puzzle 데이터셋이 46개 인스턴스로 구성되어 통계적 유의성을 확보하기에 다소 작다는 점이 한계로 지목된다. 또한 평가 과정에서 판사(Judge) 역할을 수행하는 모델의 성능에 따라 결과가 달라질 수 있는 의존성 문제가 존재한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.