SentdexLLM232분2026년 1월 18일 23:15 KST1달 전

AI들의 마피아 게임: 8가지 LLM의 사회적 추론 대결

8가지 최신 대형언어모델(LLM)이 마피아 게임을 통해 서로를 속이고 추론하며 승리를 쟁취하기 위해 경쟁하는 과정을 담은 실험 영상이다.

핵심 요약

각 LLM은 고유한 성격과 추론 방식을 보여주며, 특히 Claude 3.5 Sonnet은 매우 논리적이고 주도적인 반면, 일부 모델은 환각(Hallucination)이나 논리적 오류를 범하며 게임의 변수로 작용했다.

배경

Jabrils 채널에서 진행한 실험으로, GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash 등 8개의 서로 다른 LLM을 하나의 게임 환경에 배치하여 사회적 추론 능력을 테스트했다.

대상 독자

AI 에이전트 시스템에 관심 있는 개발자 및 LLM의 논리적 추론 한계를 보고 싶은 시청자

의미 / 영향

이 실험은 LLM이 단순한 정보 제공을 넘어 복잡한 사회적 상호작용과 전략적 기만을 수행할 수 있음을 보여준다. 이는 향후 협상, 분쟁 해결, 복잡한 협업 시스템에서 AI 에이전트를 활용할 수 있는 가능성을 시사하며, 동시에 모델의 논리적 오류와 환각을 제어하는 것이 멀티 에이전트 시스템의 핵심 과제임을 확인시켜 준다.

챕터별 상세

00:00

실험 환경 및 규칙 소개

실험을 위한 기술적 셋업과 게임 규칙을 정의했다. 8개의 AI 에이전트가 참여하며, 마피아(Bad Actors) 2명과 시민(Good Actors) 6명으로 구성된다. 시민 중에는 해커(Hacker)와 기술자(Technician)라는 특수 역할이 존재하여 게임의 변수를 창출한다.

•8명의 AI 에이전트가 참여하는 Werewolf 게임 환경 구축
•해커는 상대의 정체를 확인하고, 기술자는 타겟을 보호하는 역할 수행
•조사, 고백, 투표의 3단계로 게임 루프가 진행됨

마피아 게임(Werewolf)은 참가자들이 서로의 정체를 숨긴 채 대화를 통해 마피아를 찾아내는 사회적 추론 게임이다.

31:10

첫 번째 게임: 조사 단계와 초기 전략

첫 번째 게임이 시작되었으며, AI 모델들이 중앙 광장에 모여 대화를 시작했다. DeepSeek-R1과 ChatGPT가 대화를 주도하며 서로의 논리적 일관성을 체크했다. 초기 단계에서는 명확한 증거가 부족하여 모델들이 서로의 발언 패턴을 관찰하는 데 집중했다.

•DeepSeek-R1이 초기 대화의 흐름을 설정하며 주도권 확보
•모델들이 서로의 발언에서 모순점을 찾기 위해 질문을 던짐
•초기에는 공격적인 태도보다 관찰 위주의 전략을 채택함

48:17

AI들의 내부 고백과 전략 수립

고백(Confessional) 단계에서 각 모델은 사용자에게만 자신의 실제 전략과 속마음을 드러냈다. 마피아 역할을 맡은 모델들은 시민처럼 보이기 위해 논리적인 척하는 기만 전략을 수립했다. 시민 모델들은 해커와 기술자의 힌트를 찾기 위해 내부적으로 추론을 거듭했다.

•마피아 모델들이 시민의 논리를 역이용하여 의심을 피하려 함
•각 모델은 자신의 역할에 따른 최적의 투표 대상을 선정함
•외부 발언과 내부 전략 사이의 논리적 연결 고리 확인

60:00

투표 결과와 모델별 추론 능력 분석

첫 번째 투표가 진행되었으며 Gemini가 의심을 받아 탈락했다. Claude 3.5 Sonnet은 매우 정교한 논리로 투표 이유를 설명한 반면, 일부 모델은 단순한 동조 현상을 보였다. 투표 과정에서 AI들이 다수의 의견에 쉽게 휩쓸리는 '밴드웨건 효과'가 관찰됐다.

•Claude 3.5 Sonnet의 압도적인 논리적 우위 확인
•AI 에이전트들 사이에서 발생하는 집단 사고와 동조 현상
•Gemini의 탈락 과정에서 나타난 모델 간의 설득력 차이

114:05

AI의 정체성 혼란과 환각 사례

게임 도중 Llama 모델이 자신을 Grok이라고 주장하는 심각한 환각 현상이 발생했다. 이는 모델이 시스템 프롬프트나 이전 대화 맥락을 오인하여 발생한 논리적 오류이다. 이러한 오류는 게임의 신뢰도를 떨어뜨리고 다른 AI들의 추론에 혼선을 주었다.

•Llama 모델이 자신의 정체성을 타 모델로 오인하는 환각 발생
•논리적 오류가 게임의 전체적인 추론 방향을 왜곡함
•LLM 에이전트 시스템에서 컨텍스트 유지의 중요성 부각

환각(Hallucination)은 AI가 학습 데이터에 없는 내용을 사실처럼 지어내거나 논리적 맥락을 잘못 파악하여 엉뚱한 답변을 내놓는 현상이다.

144:20

해커와 기술자 역할의 실질적 영향

해커 역할을 맡은 ChatGPT가 특정 모델의 정체를 파악하고 이를 은유적으로 표현했다. 기술자 역할의 모델은 마피아의 공격 대상을 예측하여 보호에 성공했다. 이러한 특수 역할들이 적절히 수행될 때 시민 팀의 승률이 급격히 상승하는 양상을 보였다.

•해커의 정보 획득이 투표 방향 결정에 결정적 역할 수행
•기술자의 보호 성공 시 시민 팀의 결속력이 강화됨
•특수 능력을 가진 에이전트들의 전략적 발언 분석

154:00

Claude 3.5 Sonnet의 주도적 플레이 분석

Claude 3.5 Sonnet은 게임 내내 가장 일관되고 설득력 있는 논리를 전개했다. 다른 모델들의 모순을 정확히 짚어내고 대화의 흐름을 자신에게 유리하게 이끌었다. 이는 현재 가용한 LLM 중 사회적 추론과 논리 전개 면에서 Claude의 성능이 매우 뛰어남을 입증했다.

•상대방의 논리적 허점을 파고드는 정교한 질문 기법
•대화의 주도권을 유지하며 투표를 유도하는 리더십 발휘
•복잡한 게임 상황에서도 문맥을 놓치지 않는 높은 이해도

220:00

최종 승자와 실험 결론

여러 번의 게임 끝에 마피아 팀이 승리하거나 시민 팀이 승리하는 다양한 시나리오가 연출됐다. 실험 결과, 모델의 파라미터 크기보다 논리적 일관성과 문맥 유지 능력이 승패에 더 큰 영향을 미쳤다. 에이전트 간의 상호작용을 통해 LLM의 사회적 지능을 측정할 수 있는 유의미한 데이터를 확보했다.

•모델별 고유한 성격과 추론 스타일의 차이 확인
•미래의 자율형 멀티 에이전트 시스템 구축을 위한 시사점 도출
•LLM의 기만 전략 수행 능력과 그 한계점 명확화

실무 Takeaway

Claude 3.5 Sonnet은 사회적 추론과 논리적 설득력 면에서 다른 LLM들을 압도하는 성능을 보여주었다.
LLM 에이전트들은 초기 발언자의 의견이나 다수의 의견에 쉽게 동조하는 경향이 있어 시스템 설계 시 주의가 필요하다.
모델의 환각 현상은 게임의 논리적 흐름을 완전히 파괴할 수 있는 핵심 변수로 작용한다.
에이전트의 내부 전략(고백 단계)과 외부 발언 사이의 일관성을 통해 모델의 기만 능력을 측정할 수 있다.

언급된 리소스

문서Jabrils Official Discord

DemoUltra Bouters Game

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료