핵심 요약
LLM이 사회적 역할을 수행할 때 단순히 텍스트 스타일을 흉내 내는 것이 아니라, 내부 표현 공간에서 '개인적 관점'과 '제도적 관점'을 명확히 구분하는 기하학적 축을 가지고 있음을 발견했다. 이 축을 조절함으로써 모델의 답변을 더 거시적이거나 미시적인 관점으로 자유롭게 유도할 수 있어, 보다 정교한 사회 시뮬레이션과 에이전트 설계가 가능해진다.
왜 중요한가
LLM이 사회적 역할을 수행할 때 단순히 텍스트 스타일을 흉내 내는 것이 아니라, 내부 표현 공간에서 '개인적 관점'과 '제도적 관점'을 명확히 구분하는 기하학적 축을 가지고 있음을 발견했다. 이 축을 조절함으로써 모델의 답변을 더 거시적이거나 미시적인 관점으로 자유롭게 유도할 수 있어, 보다 정교한 사회 시뮬레이션과 에이전트 설계가 가능해진다.
핵심 기여
Granularity Axis(세분성 축)의 발견 및 정의
미시적 역할(개인)과 거시적 역할(국가, 기관) 사이의 내부 활성화 차이를 나타내는 단일 잠재 방향인 Granularity Axis를 정의했다. 이 축은 Qwen3-8B 모델의 역할 표현 공간 분산의 52.6%를 설명하며 지배적인 기하학적 구조임을 입증했다.
75개의 체계적인 사회적 역할 데이터셋 구축
개인(Micro)부터 국가(Macro)까지 5단계의 세분성 수준을 아우르는 75개의 사회적 역할을 정의하고, 91,200개의 역할 조건부 응답 데이터를 수집하여 모델의 내부 표현을 분석하는 기반을 마련했다.
활성화 스티어링을 통한 사회적 관점의 인과적 제어
발견된 Granularity Axis를 따라 모델의 활성화 값을 조정(Steering)함으로써, 동일한 질문에 대해 모델이 개인적 조언을 할지 혹은 국가적 정책 대안을 제시할지를 인과적으로 제어할 수 있음을 증명했다.
핵심 아이디어 이해하기
LLM은 학습 과정에서 수많은 텍스트를 통해 개인이 말하는 방식과 기관이 보고하는 방식의 차이를 학습한다. 이 논문은 이러한 차이가 모델 내부의 Embedding 공간이나 Hidden State 상에서 무작위로 흩어져 있는 것이 아니라, '미시에서 거시로' 향하는 하나의 일관된 직선(벡터 방향)으로 정렬되어 있다는 점에 주목한다.
기존의 역할 수행(Role-playing) 연구들이 단순히 특정 페르소나의 재현에 집중했다면, 본 연구는 모든 역할이 공유하는 '사회적 규모(Social Scale)'라는 공통된 차원이 존재함을 보여준다. 이는 마치 지도 위에서 북쪽과 남쪽이라는 방향이 있듯이, 모델의 지식 공간 안에 사회적 세분성을 결정하는 나침반 바늘과 같은 축이 존재한다는 의미이다.
결과적으로 모델은 '걱정하는 부모'라는 역할과 '중앙은행 총재'라는 역할을 별개의 독립된 데이터로 처리하는 것이 아니라, 이 세분성 축 위의 서로 다른 지점에 위치한 상태로 인식한다. 이 축을 따라 모델의 내부 상태를 인위적으로 이동시키면, 모델은 자신의 관점을 개인의 경험에서 사회 시스템의 논리로 즉각 전환하게 된다.
관련 Figure

각 점은 특정 사회적 역할을 나타내며, 색상(L1~L5)에 따라 미시적 역할에서 거시적 역할로 갈수록 공간상에서 일정한 방향(Granularity Axis)을 따라 정렬됨을 보여준다. 두 모델 모두에서 세분성 수준에 따른 명확한 기하학적 순서 구조가 존재함을 시각적으로 증명한다.
Qwen3-8B와 Llama-3.1-8B-Instruct 모델의 역할 표현 공간을 3차원 주성분 분석(PCA)으로 시각화한 도표이다.
방법론
75개의 역할을 5단계(L1:개인, L2:그룹, L3:조직, L4:기관, L5:국가)로 분류하고, 각 역할에 대해 5가지 프롬프트 변형과 240개의 공통 질문을 입력하여 응답을 생성한다. 생성된 응답의 각 토큰별 Hidden State를 추출한 뒤, 이를 평균 내어 각 역할에 해당하는 '역할 벡터(Role Vector)'를 생성한다.
거시적 역할(L4, L5)의 평균 벡터에서 미시적 역할(L1, L2)의 평균 벡터를 빼서 Granularity Axis 를 계산한다. [] 이 연산을 통해 두 집단 사이의 순수한 방향 차이를 추출하며, 이 방향이 전체 역할 벡터들의 주성분(PC1)과 얼마나 일치하는지 코사인 유사도로 측정한다.
추출된 축 를 특정 레이어(Layer 18)의 활성화 값 에 더해주는 Steering 연산을 수행한다. [] 여기서 는 제어 강도를 의미하며, 양수일 경우 거시적 관점으로, 음수일 경우 미시적 관점으로 모델의 출력이 변화하도록 유도한다.
주요 결과
Qwen3-8B 모델에서 정의된 Granularity Axis는 역할 표현 공간의 제1주성분(PC1)과 0.972의 매우 높은 코사인 유사도를 보였으며, 전체 분산의 52.6%를 차지했다. 이는 사회적 세분성이 모델이 역할을 이해하는 데 있어 가장 중요한 기준임을 시사한다.
L1에서 L5까지의 역할 벡터들을 이 축에 투영했을 때, 세분성 수준이 높아질수록 투영값이 단조 증가(Monotonic increase)하는 경향이 뚜렷하게 나타났다. 이러한 구조는 Llama-3.1-8B-Instruct 모델에서도 유사하게 관찰되어 모델 가문(Family)을 초월한 보편성을 입증했다.
스티어링 실험 결과, Llama 모델에 양의 방향으로 개입했을 때 5점 척도의 거시성 점수가 2.00에서 3.17로 크게 상승했다. 반면 Qwen 모델은 기본 상태가 이미 거시적 관점에 치우쳐 있어(L3 수준), 양의 스티어링보다는 음의 스티어링(미시화)에서 더 뚜렷한 변화를 보였다.
기술 상세
본 연구는 역할 조건부 활성화(Role-conditioned activations)가 저차원의 선형 구조를 가진다는 '선형 표현 가설(Linear Representation Hypothesis)'을 사회적 세분성 차원에서 검증했다. 특히 Qwen3-8B와 Llama-3.1-8B-Instruct 두 모델 모두에서 중간 레이어(Layer 18 전후)에서 가장 안정적인 세분성 축이 형성됨을 확인했다.
분석 결과, 모델의 기본 상태(Default Assistant)는 완전히 미시적인 지점이 아닌 중간 이상의 거시적 영역(Qwen은 L3, Llama는 L4 근처)에 위치하고 있었다. 이는 지시 이행 학습(Instruction Tuning) 과정에서 모델이 보다 객관적이고 제도적인 어조를 기본값으로 채택하게 되었음을 시사한다.
인과적 검증을 위해 사용된 Activation Steering은 프롬프트 자체를 수정하지 않고도 모델의 행동을 변화시켰으며, 이는 발견된 축이 단순한 통계적 상관관계가 아니라 모델의 생성 로직을 결정하는 인과적 요소임을 뒷받침한다. 다만, 강한 음의 스티어링 시 모델의 출력이 반복되거나 붕괴되는 Degeneration 현상이 관찰되어 제어 강도() 설정의 중요성을 확인했다.
한계점
본 연구는 8B 규모의 모델 두 종에 집중되어 있어 더 큰 규모의 모델이나 다른 아키텍처에서의 일반화 여부는 추가 검증이 필요하다. 또한, 세분성 축이 시간 지평(Time horizon)이나 공식성(Formality) 등 다른 사회적 차원과 어느 정도 얽혀(Entanglement) 있는지에 대한 심층적인 분리 분석이 향후 과제로 남아 있다.
실무 활용
LLM 기반의 사회 시뮬레이션이나 멀티 에이전트 시스템에서 발생할 수 있는 '관점의 붕괴(모든 에이전트가 비슷한 수준으로 답변하는 현상)'를 진단하고 해결하는 데 직접적으로 활용될 수 있다.
- 사회 정책 시뮬레이션 시 에이전트의 관점(개인 vs 국가)을 명확히 고정하여 토론의 질 향상
- 고객 상담 챗봇에서 상황에 따라 개인적 공감 모드와 제도적 안내 모드를 정교하게 전환
- LLM이 특정 역할의 관점을 내부적으로 얼마나 정확하게 구분하고 있는지 측정하는 벤치마크 도구로 활용
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.