SAVOIR: Shapley 기반 보상 할당을 통한 사회적 처세술 학습

AI 에이전트가 복잡한 다자간 대화나 협상에서 성공하려면 각 발화의 장기적인 전략적 가치를 정확히 평가해야 합니다. 이 논문은 게임 이론의 Shapley Value를 활용해 대화의 최종 결과에 기여한 개별 발화의 공헌도를 공정하게 계산함으로써, 단순한 논리적 추론을 넘어선 고도의 사회적 지능을 구현하는 새로운 방법론을 제시합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

SAVOIR 프레임워크 제안

협력 게임 이론의 Shapley Value와 기대 효용 개념을 결합하여 다회차 대화에서 개별 발화의 전략적 가치를 정밀하게 측정하는 보상 할당 프레임워크를 구축했다.

사후적 기여에서 미래 가치 평가로의 전환

단순히 결과에 대한 과거 기여도를 따지는 대신, 특정 발화가 미래에 유리한 대화 궤적을 만들어낼 잠재력인 '기대 효용'을 평가 지표로 도입했다.

SOTOPIA 벤치마크 SOTA 달성

7B 규모의 모델로 SOTOPIA-Hard 벤치마크에서 GPT-4o 및 Claude 3.5 Sonnet과 같은 대형 상용 모델을 능가하거나 대등한 성능을 기록했다.

추론 모델과 사회적 지능의 상관관계 규명

OpenAI o1과 같은 강력한 논리 추론 모델들이 사회적 상호작용 과제에서는 오히려 성능이 저하됨을 발견하여, 사회적 지능이 분석적 추론과는 질적으로 다른 능력임을 입증했다.

핵심 아이디어 이해하기

기존의 강화학습 기반 대화 에이전트는 대화가 끝난 후 얻은 점수를 각 발화에 골고루 나눠주는 방식을 사용했다. 하지만 실제 사회적 상호작용에서는 당장 효과가 없어 보여도 나중에 큰 성공을 이끌어내는 '전략적 포석'이 존재한다. 단순히 최종 결과만 보고 보상을 나누면 이러한 중요한 발화들이 제대로 평가받지 못하는 Credit Assignment Problem이 발생한다.

SAVOIR는 이를 해결하기 위해 대화의 각 발화를 협력 게임의 '플레이어'로 간주한다. 특정 발화가 포함되었을 때와 빠졌을 때의 미래 기대 승률 차이를 계산하여, 해당 발화가 전체 결과에 미친 순수한 영향력을 추출한다. 이는 딥러닝의 가중치 업데이트 과정에서 특정 뉴런의 기여도를 정밀하게 추적하는 것과 유사한 원리다.

결과적으로 모델은 단순히 예의 바른 말을 하는 것이 아니라, 상대방의 양보를 끌어내거나 신뢰를 구축하는 등 전략적으로 유효한 발화를 우선적으로 학습하게 된다. 이는 모델이 대화의 흐름을 장기적으로 설계할 수 있는 능력을 갖추게 함으로써 인간에 가까운 처세술을 구사할 수 있게 만든다.

관련 Figure

#2Diagram
입력된 대화에서 발화 조합을 샘플링하고, 미래 시뮬레이션(Rollout)을 통해 기대 효용을 계산한 뒤, 회귀 분석을 통해 최종 Shapley Value를 도출하는 4단계 과정을 상세히 설명한다.
SAVOIR 프레임워크의 상세 동작 메커니즘

방법론

SAVOIR는 세 단계의 파이프라인으로 구성된다. 첫째, LLM 자기 대전(Self-play)을 통해 방대한 사회적 상호작용 에피소드를 수집한다. 둘째, 수집된 에피소드 내의 개별 발화에 대해 Shapley Value 기반의 보상을 계산한다. 셋째, 계산된 보상을 바탕으로 보상 모델(Reward Model)을 학습시키고, 이를 활용해 에이전트를 온라인 강화학습(GRPO)으로 최적화한다.

핵심 메커니즘인 Shapley Value 계산은 KernelSHAP 알고리즘을 사용한다. 대화 내 발화 집합 N에서 부분 집합 S를 샘플링하고, 해당 부분 집합만 존재할 때의 기대 효용 v(S)를 몬테카를로 시뮬레이션으로 추정한다. [샘플링된 발화 조합 입력] → [미래 대화 시뮬레이션 수행] → [최종 점수의 가중 평균 계산] → [해당 조합의 전략적 가치 산출] 과정을 거친다.

최종 보상 ϕ는 가중 회귀 분석을 통해 도출된다. 각 발화가 다양한 조합에 참여했을 때 발생하는 한계 기여도를 평균 내어, 효율성(Efficiency), 대칭성(Symmetry), 가산성(Additivity) 등의 공리적 특성을 만족하는 공정한 보상 값을 얻는다. 이 값은 [0, 10] 범위로 정규화되어 보상 모델의 학습 타겟으로 사용된다.

관련 Figure

#1Diagram
데이터 수집(Stage 1), Shapley 기반 보상 모델링(Stage 2), 그리고 GRPO를 이용한 정책 학습(Stage 3)으로 이어지는 과정을 보여준다. 특히 보상 모델링 단계에서 다차원 보상을 할당하고 통합하는 과정이 핵심이다.
SAVOIR의 전체 학습 파이프라인 개요도

주요 결과

SOTOPIA-Hard 벤치마크에서 SAVOIR 7B 모델은 GPT-4o를 파트너로 했을 때 Goal Completion 점수 7.18을 기록하며 기존 최고 모델인 Sotopia-RL(6.68) 대비 7.5% 성능 향상을 보였다. 특히 Self-Play 환경에서는 7.93점을 기록하여 DSI(7.31) 등 기존 기법들을 압도했다.

흥미로운 점은 OpenAI o1-preview(5.69), DeepSeek-R1(5.86) 등 강력한 추론 모델들이 SAVOIR 7B보다 낮은 점수를 기록했다는 것이다. 이는 긴 생각 체인(CoT)을 사용하는 추론 모델들이 오히려 직관적이고 유연한 사회적 대응이 필요한 과제에서는 불리할 수 있음을 시사한다.

Ablation Study 결과, 기대 효용(EU)만 사용했을 때보다 Shapley Value를 통한 보상 재분배를 결합했을 때 성능이 가장 높았다. 이는 발화의 미래 가치를 예측하는 것만큼이나, 그 가치를 각 발화에 공정하게 할당하는 메커니즘이 학습에 필수적임을 보여준다.

기술 상세

SAVOIR는 POMDP(Partially Observable Markov Decision Process) 프레임워크 내에서 사회적 상호작용을 정의한다. 보상 모델 Rθ는 문맥-발화 쌍을 입력받아 MLP를 통해 스칼라 보상 값을 예측하도록 MSE Loss로 학습된다. 학습 데이터는 7,500개의 발화 수준 주석으로 구성된다.

정책 학습에는 GRPO(Group Relative Policy Optimization) 알고리즘을 사용한다. 이는 PPO와 달리 별도의 가치 함수(Value Function) 네트워크 없이 그룹 내 상대적 보상을 활용해 효율적인 온라인 학습이 가능하다. 학습 과정은 SFT(Supervised Fine-Tuning)로 모델을 예열한 후, 학습된 보상 모델을 기반으로 강화학습을 진행하는 단계를 따른다.

Shapley Value 계산 시 발생하는 지수적 연산 복잡도를 해결하기 위해 KernelSHAP을 도입했으며, 대화 길이에 따라 샘플링 개수 K를 적응적으로 조절(K = min(12n+2, 200))하여 계산 효율성을 확보했다. 또한 GOAL, RELATIONSHIP, KNOWLEDGE의 세 가지 차원을 0.5:0.3:0.2 비율로 가중 합산하여 다차원적인 사회적 목표를 반영했다.

관련 Figure

#3Chart
조합의 크기가 아주 작거나(개별 효과) 아주 클 때(시너지 효과) 더 높은 가중치를 부여하는 KernelSHAP의 특성을 보여준다. 이를 통해 적은 샘플링으로도 정확한 Shapley Value 근사가 가능함을 시각화한다.
발화 조합 크기에 따른 SHAP 커널 가중치 분포

한계점

성능이 뛰어난 파트너(예: Gemini 3-Pro)를 만날수록 에이전트의 성능이 저하되는 경향이 있으며, 이는 고정된 파트너 분포에서의 학습이 상위 수준의 사회적 추론가에게 일반화되지 못할 수 있음을 시사한다. 또한 현재 실험은 영어 데이터셋에 국한되어 있어 문화적 맥락이 중요한 사회적 지능의 특성상 다국어 및 다문화 환경으로의 확장이 필요하다.

실무 활용

협상, 고객 서비스, 갈등 조정 등 고도의 사회적 기술이 필요한 AI 에이전트 개발에 즉시 적용 가능한 프레임워크다.

비즈니스 협상에서 유리한 조건을 이끌어내는 자동 협상 에이전트
사용자의 감정을 상하게 하지 않으면서 목표를 달성하는 개인 비서 서비스
복잡한 시나리오 기반의 사회적 기술 훈련용 시뮬레이터
다자간 대화에서 중재자 역할을 수행하는 AI 조정자

코드 공개 여부: 공개

코드 저장소 보기

키워드

RL(강화학습)Shapley-Value(샤플리 값)Social-Intelligence(사회적 지능)Credit-Assignment(기여도 할당)Game-Theory(게임 이론)LLM-Agent(LLM 에이전트)

SAVOIR: Shapley 기반 보상 할당을 통한 사회적 처세술 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

SAVOIR 프레임워크 제안

사후적 기여에서 미래 가치 평가로의 전환

단순히 결과에 대한 과거 기여도를 따지는 대신, 특정 발화가 미래에 유리한 대화 궤적을 만들어낼 잠재력인 '기대 효용'을 평가 지표로 도입했다.

SOTOPIA 벤치마크 SOTA 달성

7B 규모의 모델로 SOTOPIA-Hard 벤치마크에서 GPT-4o 및 Claude 3.5 Sonnet과 같은 대형 상용 모델을 능가하거나 대등한 성능을 기록했다.

추론 모델과 사회적 지능의 상관관계 규명

핵심 아이디어 이해하기

관련 Figure

방법론

관련 Figure

주요 결과

기술 상세

관련 Figure

한계점

실무 활용

협상, 고객 서비스, 갈등 조정 등 고도의 사회적 기술이 필요한 AI 에이전트 개발에 즉시 적용 가능한 프레임워크다.

비즈니스 협상에서 유리한 조건을 이끌어내는 자동 협상 에이전트
사용자의 감정을 상하게 하지 않으면서 목표를 달성하는 개인 비서 서비스
복잡한 시나리오 기반의 사회적 기술 훈련용 시뮬레이터
다자간 대화에서 중재자 역할을 수행하는 AI 조정자

코드 공개 여부: 공개

코드 저장소 보기

키워드

RL(강화학습)Shapley-Value(샤플리 값)Social-Intelligence(사회적 지능)Credit-Assignment(기여도 할당)Game-Theory(게임 이론)LLM-Agent(LLM 에이전트)

SAVOIR: Shapley 기반 보상 할당을 통한 사회적 처세술 학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

SAVOIR: Shapley 기반 보상 할당을 통한 사회적 처세술 학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드