제한된 상호작용에서 텍스트-테이블 모델링을 이용한 AI 에이전트 의사결정 예측

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

언어로 상호작용하는 낯선 상대의 의사결정을 소량의 과거 기록만으로 예측하는 문제를 제시하고, target-adaptive text-tabular 예측 프레임워크를 통해 새로운 상대의 행동 패턴에 빠르게 적응한다. LLM을 직접 예측기로 쓰는 방식보다 데이터-적합화에 유리하며, Observer의 은닉 표현이 의사결정 신호를 더 잘 포착한다는 실증적 근거를 제공한다. 교차-인구 전이 평가를 통해 실제 배포 환경에서의 일반화 가능성도 검증한다.

왜 중요한가

핵심 기여

타깃 적응 텍스트-테이블 예측 프레임워크

K개의 타깃 에이전트 과거 게임을 적응 예시로 활용하고, 소스 인구의 행과 타깃의 행을 함께 조건부로 학습하는 텍스트-테이블 기반 예측 모듈을 제시한다.

LLM-as-Observer를 통한 결정-지향 표현

소형 frozen LLM을 관찰자(Observer)로 두고, 공개 상태와 대화를 읽은 뒤 직접 출력은 discard하고 내부 은닉 상태를 예측 특징으로 사용한다. 파인튜닝 없이도 타깃 적응이 가능하고, 최종 예측은 TabPFN 기반의 탭러 모델이 수행한다.

크로스-인구 전이 평가

원천인구( frontier-LLM 토너먼트)에서 학습하고 held-out hackathon 타깃 인구에서 테스트하는 설정으로, 다양한 에이전트 구현 차이를 넘어선 일반화 가능성을 검증한다.

Observer의 숨겨진 상태가 성능에 기여

응답 예측에서 Observer의 은닉 표현이 Baseline 대비 평균 약 4pp의 AUC 향상을 제공하고, 제안 예측에서 Bargaining 상황에서 약 14%의 오차 감소를 달성한다.

핵심 아이디어 이해하기

출발점과 한계: 두 에이전트가 텍스트 대화와 공개 게임 상태를 바탕으로 의사결정을 내리는 환경에서, 제한된 과거 행위 데이터로 다음 움직임을 예측하는 것은 어려움이 있다. 기존의 LLM-as-Predictor 방식은 단일 모델이 모든 근거를 한 번에 예측하도록 강제되어, 표의 구성요소와 타깃의 적응 정보를 효과적으로 결합하기 어렵다. 또한, 텍스트-테이블 형식의 예측은 다중 소스 정보를 결합하기에 자연스러운 인터페이스를 제공한다.

방법론

세 가지 모달리티로 결정 포인트를 표현한다. [입력값] → [연산] → [출력]의 흐름으로 도식화한다. [값 입력]은 공개 게임 상태의 구조화된 변수와 라운드/이전 제안/대응 정보를 포함한다. [연산]은 텍스트 임베딩과 Observer 은닉 상태를 결합하여 표 형태의 행으로 구성한다. [출력]은 예측 목표이며, 두 가지 작업으로 분리된다: 1) response prediction은 현재 제안을 수락할지 여부를 분류한다. 2) proposal prediction은 다음 제안을 회귀로 예측한다. 학습은 source population의 행과 target의 K개 행을 함께 사용해 적응하며, K-shot 적응 예시를 통해 타깃 에이전트에 대한 일반화가 가능하게 한다.

주요 결과

주요 벤치마크는 cross-population transfer로, 13-에이전트 frontier-LLM 토너먼트에서 학습하고 91-에이전트 hackathon 타깃에서 평가한다. 응답 예측에서 Observer 기반 모델은 Baseline을 상회하며 Bargaining에서 K=16일 때 Gemma-as-Observer의 AUC가 0.831로 기록되고, Game+text features 대비 약 0.226pp, LLM-as-Predictor 대비 약 0.045pp의 향상을 보였다. Negotiation의 경우 Observer가 대체로 강력하지만, 제안 예측에선 계약적 맥락에 따라 차이가 있다. LLM-as-Predictor는 일부 셀에서 예측 성능이 저조했고, Observer가 은닉 상태를 이용한 표현으로 더 안정적인 개선을 보여주었다.

기술 상세

아키텍처: 세 가지 모달리티를 사용하는 타깃 적응 탭러 추론기로 설계된다. [입력]은 게임-상태 features, 대화 representation, Observer 은닉 상태로 구성된다. [처리 흐름]은 소스 population의 행과 타깃의 K-행을 함께 인풋으로 받아 TabPFN v2.6으로 학습한다. [학습 설정]은 K ∈ {0,2,4,8,16}, source에서 최대 3,000개 행, 타깃의 K개 행으로 구성된 학습 셀과 테스트 셀을 포함한다. Baseline으로는 Game+text features, LLM-as-Predictor가 있으며, Observer는 Gemma-2-2B, Qwen3-1.7B, Llama-3.2-1B의 은닉 상태를 사용한다. 수식/수학 개념은 텍스트-테이블(row)로 표현되며, 평가 지표는 응답의 AUC와 제안의 R2이다.

한계점

논문이 명시한 한계는 실험 환경이 실제 시장의 추상화에 불과하고, 적합한 원천 인구를 확보해야 하며 Observer의 기여가 작업에 따라 다르다는 점이다. 또한, hackathon 타깃은 특정 LLM 기반 구성으로 제한되므로 일반화 한계가 존재한다. 또한, 실험은 2인 상호작용에 한정되며 확장 시나리오에 대한 추가 검증이 필요하다.

실무 활용

실무 환경에서 언어 기반 상호작용 상대의 의사결정을 예측하는 데, 타깃 적응 텍스트-테이블 학습과 Observer 표현이 효과적이다.

프롬프트를 공유하지 않는 상대의 의사결정을 예측해 협상 전략을 조정
제안 자동화 시스템에서 타깃 에이전트의 다음 제안을 더 정확히 추정하고 승인을 유도
언어 기반 거래에서 적응형 가격 협상을 설계하고 위험 관리에 활용

코드 공개 여부: 미확인

키워드

target-adaptive text-tabular prediction(타깃 적응 텍스트-테이블 예측)tabular foundation model(테이블 기반 기초 모델)LLM-as-Observer(Observer로 활용하는 LLM)few-shot prompting(소수 샷 프롬프팅)bargaining games(교섭 게임)negotiation agents(협상 에이전트)hidden state representation(숨겨진 상태 표현)