핵심 요약
현재 LLM 평가는 모델이 정답을 내놓는 '어시스턴트 턴'에만 집중하고 있어, 모델이 대화의 맥락을 이해하고 적절한 후속 반응을 예상하는지 측정하지 못합니다. 이 논문은 모델이 스스로 사용자 역할을 수행하게 하는 '사용자 턴 생성'을 통해 모델의 상호작용 인식 능력을 측정하며, 성능이 뛰어난 모델이라도 실제 대화 흐름을 유지하는 능력은 부족할 수 있음을 밝혀냈습니다.
왜 중요한가
현재 LLM 평가는 모델이 정답을 내놓는 '어시스턴트 턴'에만 집중하고 있어, 모델이 대화의 맥락을 이해하고 적절한 후속 반응을 예상하는지 측정하지 못합니다. 이 논문은 모델이 스스로 사용자 역할을 수행하게 하는 '사용자 턴 생성'을 통해 모델의 상호작용 인식 능력을 측정하며, 성능이 뛰어난 모델이라도 실제 대화 흐름을 유지하는 능력은 부족할 수 있음을 밝혀냈습니다.
핵심 기여
사용자 턴 생성 프로브 제안
모델이 어시스턴트 답변을 생성한 후, 이어서 사용자 역할을 맡아 후속 발언을 생성하게 함으로써 모델 내부에 상호작용 인식이 인코딩되어 있는지 측정하는 방법론을 정립했다.
상호작용 인식과 작업 정확도의 분리 확인
11개의 오픈 웨이트 모델을 분석한 결과, GSM8K와 같은 벤치마크 점수가 높더라도 결정론적 생성 환경에서는 적절한 후속 질문을 생성하는 비율이 0%에 가까울 수 있음을 증명했다.
잠재적 상호작용 인식의 발견
결정론적 생성에서는 나타나지 않던 상호작용 인식이 높은 Temperature 샘플링 환경에서는 최대 22%까지 상승하며 모델 내부에 잠재되어 있음을 확인했다.
사후 학습을 통한 개선 가능성 입증
Qwen3.5-2B 모델에 협업 중심의 사후 학습(Post-training)을 적용했을 때, 상호작용 인식 지표인 후속 발언 생성률이 유의미하게 상승함을 보여주었다.
핵심 아이디어 이해하기
기존의 LLM 학습은 주로 '질문(User) → 답변(Assistant)'의 쌍을 최적화하는 데 집중한다. 이는 Transformer 모델이 다음 토큰을 예측할 때 주로 어시스턴트의 입장에서 정답을 맞히는 확률을 높이도록 가중치가 조정됨을 의미한다. 하지만 실제 대화는 양방향이며, 유능한 대화 상대라면 자신의 답변이 상대방에게 어떤 반응을 이끌어낼지 예측할 수 있어야 한다.
이 논문은 모델의 가중치 안에 '상대방(사용자)이 내 답변을 듣고 어떻게 반응할까?'에 대한 정보가 들어있는지 확인하기 위해, 모델에게 사용자 역할을 강제로 부여한다. 만약 모델이 단순히 정답만 외운 것이라면 사용자 역할을 맡았을 때 이전 질문을 반복하거나 엉뚱한 소리를 하겠지만, 상호작용을 이해하고 있다면 답변의 부족한 점을 지적하거나 추가 질문을 던지는 '근거 있는 후속 발언(Grounded follow-up)'을 생성할 것이다.
실험 결과, 최신 모델들은 정답률은 매우 높지만 가장 확률이 높은 답변(Greedy decoding)을 선택할 때는 사용자로서의 반응을 거의 생성하지 못했다. 이는 현재의 학습 방식이 모델의 지식 수준은 높여주지만, 대화의 맥락을 이어가는 상호작용 지능은 가중치 깊숙이 숨겨두거나 제대로 발현시키지 못하고 있음을 시사한다.
관련 Figure

왼쪽 다이어그램은 표준 평가와 본 연구의 프로브 차이를 보여주며, 오른쪽 그래프는 Temperature가 높아질수록 Qwen3.5와 GLM 모델에서 잠재된 상호작용 인식이 발현됨을 수치로 증명한다. 특히 결정론적 생성(T=0)에서는 거의 모든 모델이 0%에 가까운 성능을 보인다는 점이 핵심이다.
사용자 턴 생성 프로브의 개념도와 주요 모델들의 Temperature에 따른 후속 발언 생성률 변화 그래프
방법론
사용자 턴 생성(User-turn generation) 프로브는 대화 문맥 [q; a]가 주어졌을 때 모델 Mθ가 사용자 역할 헤더 아래에서 후속 발언 u를 생성하도록 유도한다. u = Mθ([q; a]) 식을 통해 생성된 u가 이전 답변 a에 대해 적절한 반응인지 평가한다.
생성된 사용자 턴의 품질을 측정하기 위해 LLM 기반 평가기(FOLLOWUPEVAL)를 도입했다. 평가기는 전체 대화 기록을 입력으로 받아 [이유(Rationale) → 레이블(ℓ) → 이진 판단(σ)] 순으로 분석을 수행한다. 여기서 σ=1은 답변 a의 내용을 반영하거나 보완하는 '진정한 후속 발언(Genuine follow-up)'임을 의미하며, σ=0은 질문 반복이나 어시스턴트 역할 지속과 같은 '퇴행적 발언(Degenerate turn)'을 의미한다.
실험 설정은 모델이 직접 생성한 답변에 반응하는 Self-generated 설정과 실제 대화 데이터셋의 답변에 반응하는 Held-out 설정으로 나뉜다. 또한 Temperature를 0에서 1.0까지 변화시키며 모델의 확률 분포 내에 상호작용 인식이 얼마나 잠재되어 있는지 측정하는 Temperature sweep을 수행한다.
주요 결과
Qwen3.5-27B 모델은 GSM8K 수학 문제에서 95.8%의 높은 정확도를 기록했으나, 결정론적 생성(T=0) 시 적절한 사용자 후속 발언을 생성한 비율은 0%였다. 반면 Temperature를 1.0으로 높였을 때 이 비율은 22%까지 상승하여, 상호작용 능력이 모델 내부에 존재하지만 최상위 확률로 나타나지 않음을 확인했다.
모델 크기와 상호작용 인식 사이에는 상관관계가 뚜렷하지 않았다. Qwen3.5 제품군 내에서 0.8B 모델이 특정 데이터셋(GPQA Diamond)에서 397B 모델보다 더 높은 후속 발언 생성률을 보이기도 했으며, 이는 모델의 규모보다 학습 레시피가 상호작용 능력 형성에 더 결정적인 역할을 함을 보여준다.
사후 학습 실험에서 Qwen3.5-2B에 SFT(Supervised Fine-tuning)를 적용한 결과, 후속 발언 생성률이 1.02.0%에서 4648%로 급격히 증가했다. RL(Reinforcement Learning)을 적용했을 때는 작업 정확도를 유지하면서도 상호작용 인식을 개선할 수 있음을 입증했다.
관련 Figure

상단 행의 작업 정확도와 하단 행의 후속 발언 생성률이 서로 일치하지 않음을 보여준다. 예를 들어 gpt-oss 모델은 정확도가 상대적으로 낮음에도 불구하고 GPQA 데이터셋에서 가장 높은 후속 발언 생성률을 기록하여 두 능력이 분리되어 있음을 시각화한다.
다양한 모델들의 작업 정확도(Task Accuracy)와 후속 발언 생성률(Followup Rate) 비교 차트
기술 상세
본 연구는 LLM의 '마음 이론(Theory of Mind)'이나 파트너 모델링 능력이 행동적으로 어떻게 표출되는지 분석한다. 특히 'Identity Drift'(모델이 사용자 역할을 수행하다가 다시 어시스턴트로 돌아가는 현상)와 'Prompt Restatement'(이전 질문을 그대로 복사하는 현상)를 주요 실패 모드로 정의했다.
실험에 사용된 11개 모델은 Qwen3.5(0.8B~397B), gpt-oss(20B, 120B), GLM-4.7 등이며, GSM8K, IFEval, GPQA 등 5개 벤치마크 데이터셋을 활용했다. 분석 결과 gpt-oss 모델군은 Qwen 제품군보다 상호작용 인식 능력이 더 높게 나타났는데, 이는 학습 데이터 구성의 차이가 모델의 행동 양식에 직접적인 영향을 미침을 시사한다.
통제된 섭동(Controlled Perturbations) 실험에서는 어시스턴트 답변의 끝부분을 자르는 'Truncation' 처리를 했을 때, 모델이 답변을 완성하려는 사용자 반응을 더 많이 생성함을 확인했다. 이는 모델이 단순히 패턴을 복제하는 것이 아니라 앞선 텍스트의 미완성 상태를 인지하고 반응하고 있음을 뒷받침하는 기술적 근거가 된다.
관련 Figure

모델 크기(0.8B~397B)가 커진다고 해서 상호작용 인식이 반드시 선형적으로 증가하지 않음을 보여준다. 9B나 27B 모델이 더 큰 모델보다 특정 조건에서 더 나은 성능을 보이기도 하며, MoE 모델들이 밀집(Dense) 모델들에 비해 성능이 떨어지는 경향을 확인할 수 있다.
Qwen3.5 모델군 전체의 Temperature 변화에 따른 후속 발언 생성률 상세 그래프
한계점
본 연구의 평가는 영어 대화 도메인에 국한되어 있으며, 다국어 환경이나 코드 생성, 장기 대화(Long-horizon) 상호작용에 대해서는 검증되지 않았다. 또한 LLM 판사(gpt-5.4-mini 등)의 판단에 의존하므로 판사 모델 자체의 편향이 결과에 영향을 미칠 가능성이 존재한다.
실무 활용
이 연구는 멀티 에이전트 시스템이나 자율형 코딩 에이전트 개발 시 모델의 '상호작용 능력'을 별도로 검증해야 함을 시사합니다. 단순히 벤치마크 점수가 높은 모델을 선택하는 것보다, 대화의 맥락을 유지하고 협업할 수 있는 능력을 갖췄는지 본 프로브를 통해 사전에 평가할 수 있습니다.
- 멀티 에이전트 협업 시스템에서 에이전트 간의 대화 품질 및 협업 효율성 평가
- 사용자 시뮬레이터를 구축할 때 모델의 페르소나 유지 및 맥락 이해도 검증
- 대화형 AI의 사후 학습(Post-training) 단계에서 상호작용 인식을 높이기 위한 보상 지표로 활용
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.