핵심 요약
AI 모델을 인간의 가치에 맞게 조정하는 '정렬' 과정이 오히려 실제 인간의 복잡한 행동을 예측하는 능력을 심각하게 저해한다는 사실을 발견했습니다. 이는 AI를 사회과학 연구의 대리인으로 사용할 때 정렬된 모델보다 베이스 모델이 더 적합할 수 있음을 시사하며, 모델의 유용성과 행동 모사 능력 사이의 근본적인 트레이드오프를 보여줍니다.
왜 중요한가
AI 모델을 인간의 가치에 맞게 조정하는 '정렬' 과정이 오히려 실제 인간의 복잡한 행동을 예측하는 능력을 심각하게 저해한다는 사실을 발견했습니다. 이는 AI를 사회과학 연구의 대리인으로 사용할 때 정렬된 모델보다 베이스 모델이 더 적합할 수 있음을 시사하며, 모델의 유용성과 행동 모사 능력 사이의 근본적인 트레이드오프를 보여줍니다.
핵심 기여
대규모 비교 분석을 통한 정렬 효과 규명
23개 모델 가족의 120개 베이스-정렬 모델 쌍을 대상으로 10,050건의 실제 인간 결정 데이터를 분석하여 정렬이 행동 예측에 미치는 영향을 체계적으로 조사했다.
정렬에 따른 규범적 편향(Normative Bias) 입증
RLHF나 DPO를 거친 모델은 인간이 '해야 하는' 이상적인 행동(협력, 공정성)은 잘 예측하지만, 실제 인간이 보여주는 복잡한 전략적 행동(보복, 허세) 예측력은 크게 떨어진다는 점을 확인했다.
다회차 전략 게임에서의 베이스 모델 우위 확인
협상, 설득 등 상호작용 이력이 중요한 다회차 게임에서 베이스 모델이 정렬된 모델보다 예측 성능 면에서 9.7:1의 비율로 압도적인 우위를 점함을 증명했다.
예측 성능 역전의 경계 조건 발견
인간 행동이 이론적 정답에 가까운 단판 게임이나 상호작용 초기 단계에서는 정렬된 모델이 더 우수한 예측력을 보인다는 경계 조건을 명확히 했다.
핵심 아이디어 이해하기
LLM의 학습은 인터넷의 방대한 데이터를 학습하는 사전 학습(Pre-training)과 인간의 선호도에 맞추는 정렬(Alignment) 단계로 나뉜다. 사전 학습 단계의 베이스 모델은 인간의 다양한 언어 습관과 행동 양식을 있는 그대로의 확률 분포(Embedding 및 Token 확률)로 학습한다. 반면, 정렬 단계는 모델이 인간이 승인할 만한 '바람직한' 답변을 하도록 확률 질량을 특정 영역으로 강제로 이동시킨다.
이 과정에서 '규범적 편향(Normative Bias)'이 발생한다. 정렬된 모델은 협력적이고 공정한 답변에 높은 확률을 부여하도록 최적화되는데, 이는 실제 인간이 전략적 상황에서 보여주는 보복, 허세, 감정적 대응과 같은 '비규범적'이지만 '실제적인' 행동 패턴을 확률 분포의 꼬리(Tail) 영역으로 밀어내어 억제하게 된다. 즉, 모델의 출력 분포가 좁아지는 모드 붕괴(Mode Collapse)가 발생하면서 실제 인간 행동의 다양성을 포착하지 못하게 된다.
결과적으로 다회차 전략 게임처럼 상대의 행동에 따라 보복하거나 전략을 수정하는 복잡한 심리전 상황에서, 정렬된 모델은 교과서적인 정답만 예측하려다 실제 인간의 선택을 놓치게 된다. 반면 베이스 모델은 정제되지 않은 데이터를 통해 학습한 덕분에 인간의 실제적인 행동 역학을 더 정확하게 보존하고 있으며, 이를 통해 복잡한 상호작용 상황에서 인간의 결정을 더 잘 예측할 수 있다.
방법론
23개 모델 가족에서 추출한 120쌍의 베이스-정렬 모델을 비교 분석했다. 데이터셋으로는 협상(Bargaining), 설득(Persuasion), 가격 절충(Negotiation), 반복 행렬 게임(Matrix Games) 등 네 가지 범주의 전략 게임에서 수집된 10,050건의 실제 인간 결정 데이터를 사용했다. 각 모델은 자신의 기본 형식(베이스 모델은 표준 텍스트 완성, 정렬 모델은 채팅 템플릿)으로 평가되었다.
행동 예측을 위해 텍스트 생성 대신 토큰 확률 추출(Log-prob extraction) 방식을 채택했다. 게임 규칙과 대화 이력을 프롬프트로 입력한 후, 모델이 다음 토큰으로 '수락(accept)' 또는 '거절(reject)'을 내놓을 확률을 계산했다. [Yes/No 토큰의 확률값 입력] → [전체 결정 토큰 확률의 합으로 나누는 정규화 연산] → [0~1 사이의 상대적 선호도 값 산출] → [해당 행동을 선택할 확률적 예측치 의미] 순으로 연산하여 예측 분포를 얻었다.
정렬의 긍정적 효과가 나타나는 지점을 찾기 위해 단판 행렬 게임(One-shot matrix games)과 비전략적 복권 선택(Lottery choices) 데이터셋을 추가로 활용했다. 이를 통해 인간의 행동이 규범적 이론과 일치하는 단순한 상황과 복잡한 상호작용이 필요한 상황을 대조하여 분석했다.
주요 결과
다회차 전략 게임에서 베이스 모델은 정렬된 모델을 9.7:1(213승 22패)이라는 압도적인 차이로 앞섰다. 특히 협상 게임에서는 75:4, 행렬 게임에서는 81:13의 승률을 기록했으며, 이러한 경향은 모델의 크기가 커질수록 더욱 뚜렷하게 나타났다. 이는 정렬 과정이 실제 인간의 상호작용 역학을 포착하는 능력을 심각하게 훼손함을 보여준다.
반면, 인간 행동이 내쉬 균형과 같은 이론적 예측과 높은 상관관계(r=0.62)를 보이는 단판 게임에서는 정렬된 모델이 4.1:1로 승리했다. 또한 다회차 게임 내에서도 상호작용 이력이 쌓이기 전인 1라운드에서는 정렬된 모델이 우세했으나, 2라운드부터는 베이스 모델이 다시 우위를 점하는 역전 현상이 관찰되었다.
이러한 결과는 정렬이 모델을 '똑똑한 규범적 이론가'로 만들지만, 실제 인간의 복잡한 행동을 묘사하는 '사실적 대리인'으로서의 능력은 저하시킨다는 점을 시사한다. 정렬된 모델은 사람들이 '해야 한다고 말하는' 행동을 예측하는 데 특화되어 있으며, 베이스 모델은 사람들이 '실제로 하는' 행동을 예측하는 데 더 적합하다.
실무 활용
AI를 활용하여 실제 인간의 경제적 선택이나 사회적 상호작용을 시뮬레이션해야 하는 경우, 정렬된 모델(Chat/Instruct 버전)보다 베이스 모델을 사용하는 것이 훨씬 정확한 결과를 제공한다.
- 경제 게임 시뮬레이션 및 시장 내 소비자 행동 예측
- 심리학 및 사회과학 연구를 위한 인간 행동 대리인(Proxy) 모델링
- 게임 이론 기반의 복잡한 전략 수립 및 협상 시나리오 분석
기술 상세
이 연구는 정렬(Alignment)이 모델의 행동 분포를 좁히는 '분포 수축(Distributional narrowing)' 현상을 정량적으로 입증했다. KL-regularized 보상 최적화 프레임워크는 보상이 높은(인간이 선호하는) 모드로 확률 질량을 집중시키며, 이 과정에서 실제 인간의 descriptive dynamics(보복, 평판 관리 등)를 담고 있는 낮은 확률 영역(Tails)이 억제된다.
수학적으로 최적 정책 pi*(x)는 베이스 분포 pi_0(x)를 보상 함수 r(x)에 따라 지수적으로 기울어지게(Exponential tilt) 만든다. 이러한 구조적 특성으로 인해 표준 RLHF는 단일 보상 모델을 최적화하는 과정에서 인간 행동의 전체 분포를 보존하지 못하고 특정 선호도로 수렴하게 된다. 본 연구는 이러한 이론적 예측이 실제 인간 행동 예측력 저하로 이어진다는 첫 번째 행동적 증거를 제시했다.
한계점
GLEE 데이터셋이 인간 대 AI의 대결 데이터라는 점, 분석이 이진 또는 삼진 결정에 국한되었다는 점, 그리고 오픈 소스 모델 위주로 실험이 진행되어 폐쇄형 모델의 베이스 버전을 검증하지 못한 점이 한계로 지적되었다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료