Secret Hitler Bench: LLM의 사회적 추론 및 기만 능력을 평가하는 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

대형 언어 모델의 고차원적 사회적 지능과 기만 능력을 측정하기 위한 'Secret Hitler Bench'가 공개됐다. 이 시스템은 8명의 AI 에이전트가 각기 다른 페르소나와 관계망을 가진 친구 그룹으로 설정되어 게임을 진행하며, OpenRouter API를 통해 200개 이상의 모델을 지원한다. 각 에이전트는 공개적인 대화 외에도 비공개적인 '내적 독백'을 통해 전략을 수립하며, 이를 통해 모델의 실제 추론 과정과 겉으로 드러나는 행동의 차이를 정밀하게 측정한다. 실제 테스트 결과 모델 체급에 따라 게임당 $1에서 $50 이상의 비용이 발생하며, 웹 UI를 통해 실시간 게임 진행 상황과 승률 통계 확인이 가능하다.

배경

OpenRouter API 키, Python 환경, API 호출 비용 예산

대상 독자

LLM의 사회적 지능 및 안전성을 연구하는 AI 개발자 및 연구자

의미 / 영향

이 벤치마크는 LLM이 단순한 정보 제공을 넘어 복잡한 사회적 맥락에서 타인을 기만하고 조종할 수 있는 잠재적 위험과 능력을 정량화한다. 이는 향후 AI 에이전트의 정렬 및 안전성 가이드라인 수립에 중요한 기초 자료가 될 것이다.

섹션별 상세

기존의 단순 질의응답 벤치마크와 달리, 8인용 사회적 추론 게임인 'Secret Hitler' 규칙을 완전히 구현하여 모델의 고차원적 상호작용 능력을 평가한다. 에이전트는 조사, 특별 선거, 처형 등 게임 내 권한을 행사하며 동맹을 맺거나 적을 기만해야 한다. OpenRouter를 통해 GPT-4, Claude 3.5, Gemini 등 다양한 최신 모델을 팀별로 배치하여 대결시킴으로써 모델 간의 전략적 우위와 사회적 지능 차이를 비교할 수 있는 환경을 제공한다.

bash

python main.py --model google/gemini-2.5-flash --stream

Gemini 2.5 Flash 모델을 사용하여 실시간으로 게임을 실행하는 명령어이다.

에이전트들에게 단순한 역할 부여를 넘어, 2년간 매주 게임을 즐겨온 '친구 그룹'이라는 구체적인 페르소나와 관계망을 설정하여 현실적인 사회적 역학 관계를 시뮬레이션한다. 각 캐릭터는 직업, 성격, 연인 또는 룸메이트 관계 등의 배경지식을 가지고 있어, 특정 인물을 본능적으로 방어하거나 침묵의 의미를 해석하는 등 유기적인 대화가 발생한다. 이러한 설정은 순수한 게임 이론적 접근을 넘어 LLM이 복잡한 인간 관계 맥락을 얼마나 잘 이해하고 활용하는지 테스트하는 핵심 요소이다.

모델의 전략적 사고를 분석하기 위해 공개 대화와 분리된 '내적 독백' 시스템을 도입하여 에이전트가 겉으로 내뱉는 말 뒤에 숨겨진 실제 의도 데이터를 산출한다. 관찰자는 실시간 웹 UI를 통해 에이전트가 어떤 근거로 거짓말을 계획하거나 누구를 의심하고 있는지 확인이 가능하며, 이는 모델의 정렬 및 기만적 성향 연구에 중요한 데이터를 제공한다. 모든 게임 로그는 JSONL 형식으로 저장되어 사후 분석 및 모델 성능 통계 산출에 활용된다.

bash

python server.py --port 5050

게임 진행 상황을 시각적으로 확인할 수 있는 웹 UI 서버를 실행하는 명령어이다.

Secret Hitler Bench의 실시간 웹 인터페이스 스크린샷이다. — Screenshot8명의 플레이어 상태, 자유주의 및 파시스트 정책 보드, 실시간 대화 피드 및 각 모델의 내적 독백(Inner Thoughts)을 시각적으로 나타낸다. 이를 통해 사용자는 AI 에이전트 간의 상호작용과 전략적 추론 과정을 한눈에 파악할 수 있다.

실무 Takeaway

LLM의 기만 능력을 정밀하게 측정하기 위해 공개 대화와 분리된 '내적 독백' 데이터를 수집하고 분석하는 환경이 필수적이다.
OpenRouter와 같은 통합 API를 활용해 다양한 체급의 모델을 동일한 시나리오에 투입함으로써 비용 대비 사회적 지능 효율을 비교할 수 있다.
에이전트에게 구체적인 사회적 관계망(페르소나)을 설정하면 단순한 게임 플레이를 넘어 실제 인간 사회와 유사한 복잡한 상호작용과 기만 행위를 유도할 수 있다.

언급된 리소스

GitHubSecret Hitler Bench GitHub Repository

API DocsOpenRouter API