전문가는 세계 모델을 가지고, LLM은 단어 모델을 가진다: 다음 토큰 예측을 넘어 다음 상태 예측으로

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

현재의 LLM은 다음 토큰을 예측하는 '단어 모델'에 기반하여 겉보기에 완벽한 결과물을 만들어내지만, 실제 환경에서 타인과 상호작용하는 '세계 모델'은 부족하다. 체스처럼 모든 정보가 공개된 영역에서는 LLM이 우수하지만, 포커처럼 숨겨진 정보와 상대의 의도를 읽어야 하는 영역에서는 한계를 보인다. 전문가들은 결과물 자체보다 그 결과물이 환경 내 다른 에이전트들에게 어떤 반응을 이끌어낼지를 시뮬레이션하며, AI가 이를 극복하기 위해서는 결과 중심의 강화학습과 멀티 에이전트 훈련이 필요하다.

배경

LLM 추론 메커니즘에 대한 기본 이해, RLHF 및 강화학습의 기본 개념, 게임 이론의 기초 지식

대상 독자

LLM 에이전트를 개발하거나 프로덕션에 배포하는 엔지니어 및 AI 전략가

의미 / 영향

이 아티클은 LLM의 추론 능력이 텍스트 생성 수준을 넘어 타인의 심리와 사회적 역학을 시뮬레이션하는 방향으로 진화해야 함을 시사한다. 이는 향후 AI 훈련 방식이 정적인 데이터셋 학습에서 동적인 멀티 에이전트 환경에서의 강화학습으로 이동할 것임을 예고한다.

섹션별 상세

LLM은 겉보기에 훌륭한 결과물(Artifact)을 생성하지만, 전문가들은 이를 환경 내 다른 에이전트들과의 상호작용 속에서 실행되는 '수(Move)'로 평가한다. LLM은 텍스트의 일관성과 톤을 맞추는 데 집중하는 반면, 전문가는 해당 텍스트가 상대방의 인센티브와 제약 조건에 어떻게 작용할지를 시뮬레이션한다.

LLM의 단일 플레이어 게임 방식과 인간의 멀티플레이어 게임 방식을 비교한 다이어그램이다. — DiagramLLM은 프롬프트에 따른 출력을 내놓는 단일 플레이어 게임을 하지만, 인간은 타인(에이전트)의 반응과 숨겨진 의도를 고려하는 멀티플레이어 게임을 수행함을 시각적으로 대조하여 보여준다.

체스와 같은 완전 정보 게임에서는 모든 상태가 공개되어 있어 상대의 마음을 모델링할 필요가 없으며, LLM은 이와 유사한 결정론적 도메인(코드 작성, 수학)에서 뛰어난 성능을 보인다. 반면 포커와 같은 불완전 정보 게임은 정보의 비대칭성을 활용한 기만과 상대방의 모델을 역으로 이용하는 재귀적 추론이 필수적이다.

완전 정보 게임과 불완전 정보 게임의 특성을 비교한 표이다. — Infographic체스와 같은 완전 정보 게임은 가시성과 최적화가 중요하지만, 포커와 같은 불완전 정보 게임은 숨겨진 부분에 대한 추론과 신호 읽기, 리스크 관리가 핵심임을 명시한다.

Meta의 Pluribus와 같은 포커 AI는 자신의 패와 상관없이 모든 가능성을 고려하여 전략을 균형 있게 배분함으로써 상대방이 자신의 행동에서 정보를 읽어내지 못하게(Unreadable) 설계되었다. 현재의 LLM은 RLHF를 통해 협력적이고 예측 가능한 패턴을 보이도록 학습되었으며, 이는 적대적 환경에서 상대방에게 쉽게 읽히고 이용당하는 취약점이 된다.

LLM은 상대방이 자신을 테스트하거나 정보를 캐내기 위해 프로빙(Probing)을 수행하고 있다는 사실을 감지하지 못하는 '읽히기 쉬운(Readable)' 상태에 머물러 있다. 인간 전문가는 상대의 의도를 파악하고 의도적으로 오해의 소지가 있는 신호를 보내는 등 재귀적으로 대응하지만, LLM은 고정된 프롬프트 전략을 일관되게 수행하여 패턴이 노출된다.

LLM이 전략적 상황을 처리하는 과정에서 발생하는 실패 지점을 나타낸 플로우차트이다. — DiagramLLM이 전략적 상황 자체를 감지하는 첫 단계에서 실패하며, 이로 인해 에이전트 식별, 반응 시뮬레이션, 견고한 행동 선택으로 이어지는 프로세스가 작동하지 않음을 보여준다.

AI가 진정한 전문가 수준의 전략적 능력을 갖추기 위해서는 '다음 토큰 예측'에서 벗어나 자신의 행동이 가져올 환경의 변화를 예측하는 '다음 상태 예측'으로 학습 패러다임이 전환되어야 한다. 이를 위해 텍스트의 품질이 아닌 실제 결과(Outcome)를 보상으로 제공하는 멀티 에이전트 강화학습 환경에서의 훈련이 필수적이다.

실무 Takeaway

LLM을 비즈니스 협상이나 보안 에이전트로 활용할 때, 모델의 '협력적 편향'이 전략적 약점이 될 수 있음을 인지하고 적대적 시뮬레이션을 통한 검증을 수행해야 한다.
코드 작성이나 데이터 변환처럼 '세계 모델'이 필요 없는 결정론적 작업은 현재의 LLM으로 충분히 자동화 가능하지만, 이해관계자 조율이 필요한 영역은 여전히 전문가의 시뮬레이션 능력이 필요하다.
미래의 AI 에이전트 성능은 단순한 추론 능력(IQ)의 향상보다, 상대방의 의도를 읽고 자신의 행동이 미칠 2차 효과를 계산하는 '전략적 견고성' 확보에 달려 있다.

언급된 리소스

문서Scaling Test Time Compute to Multi-Agent Civilizations: Noam Brown