TL;DR
독일 맥락에서 이념 분류를 단순한 다중 클래스가 아닌 연속 스펙트럼으로 표현하는 방법을 제시한다. 13개의 Foundation Model을 비교하고 Bundestag 발언, Wahl-O-Mat, 신문 기사, 트윗 등 다양한 도메인에서의 일반화 성능을 평가한다. 데이터 다양성과 도메인 적합성의 영향이 모델 크기만큼 중요하다고 제시한다.
왜 중요한가
독일 맥락에서 이념 분류를 단순한 다중 클래스가 아닌 연속 스펙트럼으로 표현하는 방법을 제시한다. 13개의 Foundation Model을 비교하고 Bundestag 발언, Wahl-O-Mat, 신문 기사, 트윗 등 다양한 도메인에서의 일반화 성능을 평가한다. 데이터 다양성과 도메인 적합성의 영향이 모델 크기만큼 중요하다고 제시한다.
핵심 기여
Continuous left-right spectrum via party vectors
다중 라벨 분류기의 출력을 -1~1의 연속 스펙트럼으로 매핑하기 위한 적응 모델을 제시한다. 여섯 개 당파를 벡터로 표현하고, 각 party의 벡터를 합성한 후 각도(atan2 사용)로 최종 이념 점수를 산출한다.
Cross-domain evaluation with German data
Bundestag plenary, Wahl-O-Mat, 신문, 트윗 데이터의 네 가지 self-collected 데이터셋을 활용해 in-domain과 out-of-domain 성능을 평가한다.
Model comparison and performance highlights
in-domain에서 DeBERTa-large가 F1=0.84를 달성했으며, out-of-domain 뉴스에서 Gemma2-2B가 우수한 일반화 성능을 보였고, 트윗 데이터에서 길이에 따른 정확도 증가를 확인했다.
Vector optimization under constraints
Final vector 세트를 각 파티 벡터의 조정으로 최적화하되, Die Linke와 AfD의 벡터는 최대 0.25의 변화만 허용하는 제약을 설정해 MAE를 감소시켰다.
Data augmentation and diversity
Bundestag 발화 데이터의 표정과 감정 정보를 보정하기 위한 데이터 확장 및 Wahlomat 데이터의 paraphrase를 활용해 도메인 간 차이를 줄였다.
핵심 아이디어 이해하기
단계 1: 다중 라벨 분류기를 통해 여섯 정당에 대한 확률 분포를 얻는다. 단계 2: 각 정당 i에 대해 벡터 vi를 정의한다(Die Linke는 좌측, AfD는 우측, FDP는 중간, SPD/Grüne는 FDP와 Die Linke 사이에 위치하는 방식으로 각도 θi를 계산한다). 단계 3: pi vi를 모두 합산한 벡터 vres를 얻고, atan2를 통해 각도 θresult를 산출한 뒤 π/2로 나눠 -1~1의 최종 좌표를 얻는다. 단계 4: Bundestag/Wahlomat에서 수집된 도메인 데이터를 이용해 벡터를 보정하고, out-of-domain 데이터에서 일반화 성능을 점검한다. 단계 5: 모델 아키텍처의 크기와 데이터 다양성의 효과를 비교한다.
관련 Figure

당 간 연관성을 좌우 방향의 공간 관계로 표현한 예시이며, 벡터 매핑의 기초가 되는 패턴을 시각화한다.
Figure 1: Bundestag 감정 기반 당 간 연관성 히트맵

정당 간 응답의 겹침과 차이를 바탕으로 좌우 위치를 추정하는 방법의 핵심 예시를 제시한다.
Figure 2: Green Party vs AfD/ FDP 등의 합의/비합의 및Overlap
방법론
전체 파이프라인은 다음 네 단계로 구성된다. 1) Foundation Model 선별: DeBERTa Large, GottBERT Large, GBERT, GELECTRA Large, xlm-roberta Large, EuroBERT, Gemma 계열 등 13개 모델 중 최적을 탐색한다. 2) Political Classifier: 텍스트가 정치 텍스트인지 여부를 판정하는 German DeBERTa 기반 분류기를 구축하고 임계값 0.8로 정치 텍스트만 통과시킨다. 3) Political Party Classifiers: 6대 정당 Die Linke, B’90/Die Grünen, SPD, FDP, CDU/CSU, AfD에 대해 다중라벨 분류기를 학습시킨다(각 모델의 파라미터는 Table 1의 수치를 따른다). 4) Continuous Mapping: 13개 분류기의 확률 벡터를 각 파티 벡터 vi에 곱해 합 벡터 vres를 만들고, 최종 각도 θresult를 계산해 -1~1 스케일로 변환한다. 5) 도메인 평가 및 최적화: Bundestag/Wahlomat로 학습-평가 데이터셋을 구성하고, 뉴스미디어/트윗의 out-of-domain 평가를 수행한다. 6) 최소화된 MAE를 얻기 위한 벡터 최적화: 각 벡터 vp에 대해 ∆vp를 ±0.25 범위로 조정하되 Die Linke AfD 벡터는 고정한다. 우도 함수로 MAE를 최소화한다.
관련 Figure

Wahl-O-Mat 데이터의 구성과 정당별 응답 배치를 시각적으로 제시한다.
Figure 5: Wahl-0-Mat 화면 캡처 예시
주요 결과
주요 결과는 다음과 같다. In-domain에서 DeBERTa-large의 F1은 0.84로 가장 높았으며, Gemma-2-9b 및 EuroBERT-610mb은 각각 0.79 내외의 성능을 보였다. 트윗 데이터에서 단어 수가 50단어 이상인 경우 정확도는 80% 이상으로 상승하는 경향을 보였고, 단어 수가 많을수록 성능이 안정화되었다. Newspaper(out-of-domain)에서 Gemma2-2b MAE 0.1852(9.26%), Gemma2-9b MAE 0.1859(9.29%), gbert-large MAE 0.1965(9.82%)로 나타났다. 벡터 최적화 후 MAE는 평균적으로 0.0239 감소했고(1.1946%), EuroBERT-610m의 감소폭이 가장 컸다(0.304 감소, 5.73%). Table 3은 pre vs post 최적화의 MSE/MAE를 모델별로 정리하고, Figure 7은 최적화 효과를 시각화한다. 일반화 능력은 모델 크기만으로 예측되지는 않으며, DeBERTa-large는 도메인 내에서 강력했고, Out-of-domain에서는 Gemma-2-2B의 일반화 성능이 돋보였다. 최종적으로 제안된 벡터 기반 매핑은 독일어 정치 맥락에서 인간 평가와의 일치성을 보였으며, 두 개의 벡터 시스템 간의 차이는 도메인에 따라 다르게 나타났다.
관련 Figure

최적화 전후 벡터 구성의 변화와 좌우 위치 재배치를 보여주며, 모델 재조정의 효과를 시각화한다.
Figure 3: Vector 최적화 전후 Die Grünen 벡터 비교

짧은 트윗에서의 성능 저하를 보완하기 위한 길이 의존성의 실증을 제시한다.
Figure 4: Tweets에서 분류기 성능(ACC)

최적화가 MAE/MSE에 미치는 평균적 개선 정도를 보여주며, 모델 간 차이를 강조한다.
Figure 7: 다수 모델의 최적화 효과 비교
기술 상세
아키텍처: Encoder-only DeBERTa Large 등 13개 파운데이션 모델을 학습해 6개 정당의 다중라벨 확률 벡터를 얻고, 베이스 벡터 vi를 사용해 pi vi를 합산한 벡터 vres를 구성한다. 출력은 atan2(vres)로 각도를 산출하고, 이를 π/2로 나눠 -1~1의 점수로 변환한다. 데이터는 Bundestag plenary speeches(34,174 speeches 중 32,246 주석), Wahlomat(87,2100? 문장 확장 포함), 33개 신문 기사(약 10M 기사, 정치-비정치 분류 포함), 트윗(535,200)으로 구성된다. 상대적 거리 d(a,b) = (0.5·P + O)/T를 이용해 두 당의 위치를 산출하고, φ 각도 기반 벡터를 사용해 각 파티 벡터를 재배치한다. 이후 p_i vi의 합으로 vres를 만들고, θresult = atan2(vres) → score = θresult/ (π/2). 학습은 four epochs로 수행되며 GPU 구성은 Table 1에 정리되어 있다. 벡터 최적화는 각 vp의 변화 ∆vp를 ∥∆vp∥ ≤ δp (Linke/AfD는 0,0.25; 나머지는 0.25)로 제한한다. 이로써 out-of-domain 성능을 개선하되 벡터의 정책적 범위를 제약한다.
한계점
한 차원의 투영은 모든 이념 차이를 충분히 포착하지 못할 수 있다. 바람직한 경우라도 일부 텍스트에서 의도된 진술을 모델이 정확히 해석하지 못할 수 있으며, 훈련 데이터의 문화적 맥락에 따른 편향 가능성이 존재한다. 또한 도메인 전이 시 재학습이 필요하고, 두 당 간의 극단적 구분이 항상 선형 벡터 합으로 달성되지는 않는다. out-of-domain 평가의 경우 특정 매체의 편향성과 독자 맥락에 따라 모델의 일반화 한계가 나타날 수 있다.
실무 활용
뉴스 기사, 소셜 미디어, 정책 분석 등에서 정치적 편향을 연속 점수로 추정하는 도구로 활용 가능하다. 편향 경향의 모니터링, 미디어 분석, 정책 효과 평가 등에 적용할 수 있다.
- 신문 매체의 정치 편향 점수 추정 및 모니터링
- 소셜 미디어에서 주제별 이념 추정 및 추적
- 정책 발표의 이념적 영향 분석
- 언론 독자 피드백의 다차원 비교 분석
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.