TL;DR
현재 LLM 에이전트는 목표 조건의 순차적 계획으로 환경 이해를 실행 중에 얻는 지연적 인식 문제를 보인다. MAP는 실행 전 환경 정보를 전역적으로 파악해 인지 맵을 구축하고 실행에 연결함으로써 Epistemic Bottleneck와 Delayed Environmental Perception를 완화한다. ARC-AGI-3에서 프런티어 모델의 일반화 성능이 대폭 향상되었다.
왜 중요한가
현재 LLM 에이전트는 목표 조건의 순차적 계획으로 환경 이해를 실행 중에 얻는 지연적 인식 문제를 보인다. MAP는 실행 전 환경 정보를 전역적으로 파악해 인지 맵을 구축하고 실행에 연결함으로써 Epistemic Bottleneck와 Delayed Environmental Perception를 완화한다. ARC-AGI-3에서 프런티어 모델의 일반화 성능이 대폭 향상되었다.
핵심 기여
3-stage MAP 파이프라인 도입
Cross-Task Global Exploration, Task-Specific Cognitive Mapping, Knowledge-Augmented Execution의 결합으로 환경 이해를 먼저 수행하고 실행을 진행하는 구조를 제시한다.
MAP-2K 데이터셋 공개
MAP 탐색 파이프라인의 지도학습 신호를 제공하는 약 2k 개의 전문가 탐색 궤적 τMAP를 생성하고 ground-truth 정합으로 검증한다.
ARC-AGI-3에서의 일반화
MAP은 ARC-AGI-3에서 프런티어 모델의 수행을 22/25 게임에서 개선시키고, 적응성과 규칙 발견 능력을 보여준다.
환경 이해의 근본적 중요성
지식 주입과 인지 맵 기반의 사전 탐색이 표면적 행동 모방보다 근본적 진전을 이끈다는 것을 입증한다.
핵심 아이디어 이해하기
출발점: 기존의 act-during-think 방식은 환경 구조를 관찰로부터 확립하기 어렵고, 긴 기간의 상호작용에서 지속적으로 실패하는 경향이 있다. MAP은 먼저 맵을 구성하고 그 맵과 Kg를 바탕으로 실행을 결정한다. 이로써 환경의 물리적 제약과 물체-행동 가능성을 사전에 파악해 에이전트가 현장에 머무르는 시간을 줄이고, 전역 규칙의 재사용성을 높인다.
방법론
단계 1: Cross-Task Global Exploration — 환경 간에 공유되는 일반 규칙(Kg)을 추출해 보편적 상호작용 규칙, 액션 구문, 오류 패턴을 구조화한다. 탐색 트랙τexp를 수집하고 fdistill로 Kg를 구성한다. 단계 2: Task-Specific Cognitive Mapping — Mt를 구성하기 위해 공간 배치, 물체-행동 가능성, 게임 규칙을 파악하고 정보 이득(Rintrinsic)을 보상으로 삼아 탐색을 진행한다. Cond_A(지식 증가)와 Cond_B(상태 신 novelty)로 수렴 조건을 정의한다. 단계 3: Knowledge-Augmented Execution — 실행 시 u, Mt, Kg, ht를 함께 사용해 샘플링된 액션 at를 결정한다. MAP-2K는 교사-학생 지식 증류를 통해 πθ를 몬테카를로-정의된 맵-먼-행위를 학습하도록 한다.
관련 Figure

MAP의 구성요소와 흐름을 시각화해 방법론적 기여를 보강한다.
MAP 프레임워크의 3단계 구조를 도식으로 제시

Kg와 Mt의 관계를 직관적으로 설명하며 환경 priors와 맵의 구조적 연결고리를 강조한다.
Cross-Task Global Exploration과 Task-Specific Cognitive Mapping의 연계

실제 실행 단계에서 Mt, Kg를 활용하는 방식을 보강하며 Epistemic Bottleneck 해소를 시사한다.
MAP를 통한 Knowledge-Augmented Execution 흐름

Map 구성 요소의 중요성과 Spatial Layouts/ Affordances의 역할을 확인한다.
TextCraft/TextWorld의 MAP 구성 요소 비교
주요 결과
주요 벤치마크에서 MAP은 ReAct 및 CoMAP보다 우수한 성능을 보이고, 4B 규모의 MAP-4B가 ACT-4B를 능가하는 경우가 다수이다. ARC-AGI-3에서 MAP은 22/25 게임에서 향상을 달성했다. ablation 연구에서 Stage 2(Task-Specific Cognitive Mapping)의 제거가 가장 큰 성능 저하를 유발하며, Stage 1(전역 탐색)의 제거도 성능에 영향을 준다. 또한 MAP-2K를 통한 학습 신호가 전문가 실행 traces보다 우수한 학습 효과를 보인다. 맵 구성 요소 중 공간 레이아웃은 기반 구조를 제공하고, 물체-행동 가능성은 실행의 결과를 예측하는 데 기여한다.
관련 Figure

사례 연구를 통해 MAP의 단축적 탐색과 오작동 감소를 시각화한다.
ALFWorld 사례 연구에서 MAP와 ReAct 비교
기술 상세
MAP의 아키텍처는 3단계 파이프라인으로 구성된다. ① Cross-Task Global Exploration은 환경 간 일반 규칙 Kg를 추출해 Action Syntax, Interaction Rules, Error Patterns를 구조화한다. ② Task-Specific Cognitive Mapping은 Mn에서 Spatial Layouts, Object-Action Affordances, Game Rules를 파악하고Intrinsic Reward rintrinsic을 사용해 정보 획득을 가속한다. ③ Knowledge-Augmented Execution은 e의 각 스텝에서 at를 u, Mt, Kg, ht를 입력으로 샘플링한다. MAP-2K는 GPT-4.1, Claude 4.5를 교사로 두고 τMAP를 생성해 πθ를 미세조정한다. 이때 LM loss는 LMASS를 최소화하도록 LM = -Σ log πθ(at | o<t, a<t)이다.
한계점
MAP는 현재 텍스트 기반 환경에서의 검증에 한정되며, Embodied/멀티모달 환경으로의 일반화는 아직 확장이 필요하다. 구체적 멀티모달 비전/로봇 도메인에서의 매핑 모듈 확장이 향후 과제로 남아 있다.
실무 활용
MAP은 실행 전에 환경 이해를 강화함으로써 긴 호라이즌 에이전트의 일반화와 실행 효율성을 높인다.
- 가정용 로봇의 장기 목표 달성 및 물체 조작 플로우 최적화
- 텍스트 기반 시뮬레이션에서의 적응적 의사결정 강화
- 과학교육용 시나리오의 절차적 추론 보강
- 지식 보강 실행으로 외부 도구 연동 에이전트의 안정성 향상
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.