MAP: 긴 호라이즌 인터랙티브 에이전트 추론을 위한 Map-then-Act 패러다임

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

현재 LLM 에이전트는 목표 조건의 순차적 계획으로 환경 이해를 실행 중에 얻는 지연적 인식 문제를 보인다. MAP는 실행 전 환경 정보를 전역적으로 파악해 인지 맵을 구축하고 실행에 연결함으로써 Epistemic Bottleneck와 Delayed Environmental Perception를 완화한다. ARC-AGI-3에서 프런티어 모델의 일반화 성능이 대폭 향상되었다.

왜 중요한가

핵심 기여

3-stage MAP 파이프라인 도입

Cross-Task Global Exploration, Task-Specific Cognitive Mapping, Knowledge-Augmented Execution의 결합으로 환경 이해를 먼저 수행하고 실행을 진행하는 구조를 제시한다.

MAP-2K 데이터셋 공개

MAP 탐색 파이프라인의 지도학습 신호를 제공하는 약 2k 개의 전문가 탐색 궤적 τMAP를 생성하고 ground-truth 정합으로 검증한다.

ARC-AGI-3에서의 일반화

MAP은 ARC-AGI-3에서 프런티어 모델의 수행을 22/25 게임에서 개선시키고, 적응성과 규칙 발견 능력을 보여준다.

환경 이해의 근본적 중요성

지식 주입과 인지 맵 기반의 사전 탐색이 표면적 행동 모방보다 근본적 진전을 이끈다는 것을 입증한다.

핵심 아이디어 이해하기

출발점: 기존의 act-during-think 방식은 환경 구조를 관찰로부터 확립하기 어렵고, 긴 기간의 상호작용에서 지속적으로 실패하는 경향이 있다. MAP은 먼저 맵을 구성하고 그 맵과 Kg를 바탕으로 실행을 결정한다. 이로써 환경의 물리적 제약과 물체-행동 가능성을 사전에 파악해 에이전트가 현장에 머무르는 시간을 줄이고, 전역 규칙의 재사용성을 높인다.

방법론

단계 1: Cross-Task Global Exploration — 환경 간에 공유되는 일반 규칙(Kg)을 추출해 보편적 상호작용 규칙, 액션 구문, 오류 패턴을 구조화한다. 탐색 트랙τexp를 수집하고 fdistill로 Kg를 구성한다. 단계 2: Task-Specific Cognitive Mapping — Mt를 구성하기 위해 공간 배치, 물체-행동 가능성, 게임 규칙을 파악하고 정보 이득(Rintrinsic)을 보상으로 삼아 탐색을 진행한다. Cond_A(지식 증가)와 Cond_B(상태 신 novelty)로 수렴 조건을 정의한다. 단계 3: Knowledge-Augmented Execution — 실행 시 u, Mt, Kg, ht를 함께 사용해 샘플링된 액션 at를 결정한다. MAP-2K는 교사-학생 지식 증류를 통해 πθ를 몬테카를로-정의된 맵-먼-행위를 학습하도록 한다.

주요 결과

주요 벤치마크에서 MAP은 ReAct 및 CoMAP보다 우수한 성능을 보이고, 4B 규모의 MAP-4B가 ACT-4B를 능가하는 경우가 다수이다. ARC-AGI-3에서 MAP은 22/25 게임에서 향상을 달성했다. ablation 연구에서 Stage 2(Task-Specific Cognitive Mapping)의 제거가 가장 큰 성능 저하를 유발하며, Stage 1(전역 탐색)의 제거도 성능에 영향을 준다. 또한 MAP-2K를 통한 학습 신호가 전문가 실행 traces보다 우수한 학습 효과를 보인다. 맵 구성 요소 중 공간 레이아웃은 기반 구조를 제공하고, 물체-행동 가능성은 실행의 결과를 예측하는 데 기여한다.

기술 상세

MAP의 아키텍처는 3단계 파이프라인으로 구성된다. ① Cross-Task Global Exploration은 환경 간 일반 규칙 Kg를 추출해 Action Syntax, Interaction Rules, Error Patterns를 구조화한다. ② Task-Specific Cognitive Mapping은 Mn에서 Spatial Layouts, Object-Action Affordances, Game Rules를 파악하고Intrinsic Reward rintrinsic을 사용해 정보 획득을 가속한다. ③ Knowledge-Augmented Execution은 e의 각 스텝에서 at를 u, Mt, Kg, ht를 입력으로 샘플링한다. MAP-2K는 GPT-4.1, Claude 4.5를 교사로 두고 τMAP를 생성해 πθ를 미세조정한다. 이때 LM loss는 LMASS를 최소화하도록 LM = -Σ log πθ(at | o<t, a<t)이다.

한계점

MAP는 현재 텍스트 기반 환경에서의 검증에 한정되며, Embodied/멀티모달 환경으로의 일반화는 아직 확장이 필요하다. 구체적 멀티모달 비전/로봇 도메인에서의 매핑 모듈 확장이 향후 과제로 남아 있다.

실무 활용

MAP은 실행 전에 환경 이해를 강화함으로써 긴 호라이즌 에이전트의 일반화와 실행 효율성을 높인다.

가정용 로봇의 장기 목표 달성 및 물체 조작 플로우 최적화
텍스트 기반 시뮬레이션에서의 적응적 의사결정 강화
과학교육용 시나리오의 절차적 추론 보강
지식 보강 실행으로 외부 도구 연동 에이전트의 안정성 향상

코드 공개 여부: 비공개

키워드

Map-then-Act Paradigm (MAP) — 환경 이해environmental understanding (환경 이해)epistemic bottleneck (인식적 병목)affordance perception (행동 가능성 인식)cognitive map (인지 맵)ARC-AGI-3 (ARC-AGI-3)global exploration (전역 탐색)knowledge-augmented execution (지식 보강 실행)