LLM 기반 Manipulative Political Narratives 탐지 및 구조화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

소셜 미디어에서 전략적 서사는 정치 행위자에 의해 공유 의미를 형성하는 데 사용된다. 본 연구는 사전에 정의된 카테고리에 의존하지 않고도 새로운 서사 클러스터를 발견해 FIMI의 의도와 수법을 파악하는 자동화 도구를 제시한다.

왜 중요한가

핵심 기여

Prompt-based Reasoning for FIMI Detection

FIMI 특징과 few-shot 예시를 활용해 Manipulative Narrative를 Legitimate Critique에서 구분하는 프롬프트 설계 및 JSON 형식 출력.

Intent-Driven Embedding

Embedding 모델(Qwen3-Embedding-8B)을 통해 테스트 텍스트를 'manipulative intent'에 따라 매핑, 서사 기반 클러스터링의 기반을 제공.

Narrative Extraction with Final Labeling

BERTopic 기반 클러스터에서 c-TF-IDF로 키워드를 산출하고, Qwen3.5-397B-A17B-FP8로 클러스터에 대한 최종 Narrative 라벨링을 수행한다.

Large-Scale FIMI Dataset & Reproducibility

X, Reddit, Telegram으로 1,255,895건의 포스트를 수집해 파이프라인의 재현 가능성을 확보.

Hyperparameter Tuning & Cluster Discovery

HDBSCAN의 min_cluster_size를 100-1000까지 실험, 최적은 400으로 41개 클러스터를 식별.

핵심 아이디어 이해하기

출발점: FIMI와 전략적 서사의 개념으로, 기존의 단순 주제 모델링은 의도와 수법의 구조를 포착하기 어렵다. 해결 원리: 프롬프트 기반으로 FIMI 특징을 엄격히 식별하고, 임베딩은 manipulative intent에 따른 공간 분포를 형성한다. 차원 축소(UMAP)로 2D/5D 공간을 구성하고, HDBSCAN으로 군집을 발견한다. 달라지는 점: 이 파이프라인은 predefined 카테고리에 의존하지 않고 새로운 Narrative 군집을 발견할 수 있으며, OSINT 지식을 활용한 판단 능력이 향상된다.

방법론

단락 1: 전체 접근 방식과 핵심 아이디어 단락 2: 핵심 메커니즘/알고리즘 상세 단락 3+: 학습 전략, 구현 세부사항, 이론적 기반 등

기술 상세

<단락 1: 전체 아키텍처 구조> 필터링-임베딩-클러스터링-라벨링의 파이프라인. <단락 2: 핵심 메커니즘의 수학적/알고리즘적 기반> 임베딩 차원 4096, UMAP, HDBSCAN, c-TF-IDF, 라벨링 모델(Qwen3.5-397B-A17B-FP8). <단락 3: Prior work 대비 차별점> 사전 정의 카테고리 의존 제거와 Manipulative Intent 중심의 클러스터링. <단락 4+: 구현/학습 세부> 122B 파라미터 파이프라인 구성, 1.2M 포스트 처리, min_cluster_size=400.

실무 활용

null

FIMI 관련 실시간 모니터링 시스템에 파이프라인을 적용해 전략적 서사 발생 가능성을 조기에 탐지
정책 입안자와 연구진이 특정 파라노이드나 편향성의 원인을 분석하는 데 활용
감시 및 대응 전략의 근거로써 대규모 소셜 미디어 데이터에서Narrative 구조를 이해

코드 공개 여부: 공개

코드 저장소 보기

키워드

social media(소셜 미디어)narrative clustering(서사 군집화)manipulative narratives(조작적 서사)