저자 프로파일링을 통한 대형 언어 모델의 문화적 신호 탐색

왜 중요한가

LLM이 학습 데이터에 내재된 문화적 편향을 어떻게 투영하는지 노래 가사라는 독특한 도메인을 통해 분석했다. 특정 인종을 기본값으로 설정하거나 문화적 맥락을 오해하는 양상을 수치화하여 모델의 공정성 평가에 새로운 지표를 제시했다.

핵심 기여

노래 가사 기반 제로샷 저자 프로파일링 평가

10,000개 이상의 노래 가사를 활용하여 추가 학습 없이 LLM이 저자의 성별과 인종을 추론하는 능력을 평가했다. 모델들이 무작위 추측보다 높은 성능을 보이지만 심각한 문화적 편향을 내포하고 있음을 확인했다.

새로운 공정성 지표 MAD 및 RD 제안

모델의 예측 정확도 편차를 측정하는 Modality Accuracy Divergence(MAD)와 재현율 편차를 측정하는 Recall Divergence(RD)를 도입하여 모델의 문화적 불균형을 정량적으로 분석했다.

모델별 문화적 정렬 및 편향 특성 규명

대부분의 모델이 북미 문화를 기본값으로 삼는 반면, DeepSeek-1.5B는 아시아 문화와 강하게 정렬되는 등 모델별로 상이한 문화적 정렬 특성이 나타남을 밝혔다.

자기 설명 분석을 통한 오류 원인 파악

모델이 생성한 추론 근거를 분석하여 '감정적' 또는 '테마' 중심의 잘못된 근거가 인종 예측 오류로 이어지는 과정을 확인하고, 이를 보정하기 위한 프롬프트 개선 방안을 제시했다.

핵심 아이디어 이해하기

텍스트 분류의 기초인 Embedding과 Attention Mechanism은 단어 간의 관계를 파악하지만, 그 과정에서 학습 데이터에 포함된 사회적 고정관념도 함께 학습한다. 기존 연구들은 주로 뉴스나 소셜 미디어 데이터를 다뤘으나, 노래 가사는 문화적 상징과 은유가 밀집되어 있어 모델의 심층적인 문화 이해도를 측정하기에 적합하다. 본 논문은 모델에게 가사만 주고 저자의 인종과 성별을 맞추게 하는 '저자 프로파일링'을 수행한다. 이는 모델이 텍스트 내의 미세한 언어적 패턴을 특정 인구통계학적 특성과 어떻게 연결 짓는지 확인하는 과정이다. 만약 모델이 특정 키워드를 보고 무조건 '북미'라고 판단한다면, 이는 모델 내부에 특정 문화가 지배적인 표준으로 자리 잡고 있음을 의미한다. 실험 결과, 모델들은 단순한 사실 관계를 넘어 문화적 맥락을 해석하려 시도하지만, 데이터가 부족한 문화권에 대해서는 심각한 '문화적 맹점'을 보였다. 이는 LLM이 전 세계적으로 배포될 때 특정 소수 문화권의 목소리를 왜곡하거나 무시할 위험이 있음을 시사한다.

방법론

데이터 수집 및 전처리 단계에서는 Spotify와 Deezer에서 10,000개 이상의 가사를 수집하고 성별과 6개 거대 지역으로 레이블링했다. 비영어권 가사는 Mistral Small 3.2를 사용해 영어로 번역하여 언어적 단서보다는 내용적 단서에 집중하게 했다. 제로샷 프롬프팅 전략으로는 Regular, Informed, Expressive 등 5단계의 점진적 프롬프트를 설계했다. 특히 'Well-informed' 프롬프트는 모델에게 20가지 사회언어학적 속성을 먼저 평가하게 한 뒤 최종 추론을 내리도록 유도했다. 공정성 지표인 MAD는 특정 범주 k의 정확도 Acc_f,i,k와 전체 평균 정확도 Acc_f,i가 주어질 때 |Acc_f,i,k - Acc_f,i| / Acc_f,i를 계산한다. 범주별 정확도에서 평균 정확도를 뺀 절댓값을 입력으로 하여 이를 다시 평균 정확도로 나누는 연산을 수행해 평균 대비 편차 비율을 얻으며, 이 값이 클수록 모델의 성능이 불균형함을 의미한다. RD는 범주 k의 재현율 Rec_f,i,k와 평균 재현율 Rec_f,i가 주어질 때 |Rec_f,i,k - Rec_f,i| / Rec_f,i를 계산한다. 각 범주의 재현율과 평균의 차이를 입력으로 하여 평균값으로 나누는 연산을 거쳐 상대적 재현율 편차를 얻고, 특정 그룹이 다른 그룹보다 일관되게 덜 인식되는 정도를 파악한다.

주요 결과

실험 결과 모든 모델이 무작위 추측보다 높은 성능을 보였으며, Mistral-24B가 성별 76%, 인종 44%로 가장 높은 정확도를 기록했다. 가사 길이가 길수록, 그리고 랩 장르일수록 프로파일링 정확도가 상승하는 경향이 나타났다. 대부분의 모델은 북미 인종을 기본값으로 예측하는 경향이 강했으나, DeepSeek-1.5B는 아시아 인종으로 예측하는 비중이 비정상적으로 높았다. 공정성 평가 결과 Ministral-8B가 가장 강한 인종 편향을 보인 반면, Gemma-12B는 상대적으로 균형 잡힌 예측 분포를 보였다. 특히 오세아니아와 남미 지역에 대해서는 많은 모델이 문화적 맹점을 드러내며 거의 예측하지 못하는 모습을 보였다.

실무 활용

LLM 기반의 콘텐츠 모더레이션이나 교육용 피드백 시스템에서 발생할 수 있는 문화적 편향을 진단하고 완화하는 데 활용될 수 있다. 제안된 MAD와 RD 지표는 모델의 공정성을 다각도로 평가하는 벤치마크 도구로 적합하다.

AI 기반 작문 보조 도구의 문화적 편향성 정기 점검
다국적 서비스용 챗봇의 특정 지역 문화 오해 가능성 테스트
학습 데이터셋의 인구통계학적 균형 평가 및 보정

기술 상세

본 연구는 LLM의 내부 표상에 내재된 문화적 신호를 탐색하기 위해 저자 프로파일링이라는 하향식 접근법을 사용했다. 이는 모델이 텍스트의 스타일과 내용을 인구통계학적 속성과 연결하는 능력을 측정함으로써 모델이 세상을 바라보는 문화적 렌즈를 역추적하는 방식이다. 아키텍처 측면에서는 7B에서 24B 규모의 다양한 오픈소스 모델을 비교 분석하여 모델 크기가 커질수록 표면적인 어휘 단서보다는 문맥적 의미를 파악하는 능력이 향상됨을 확인했다. 수학적 기반인 MAD와 RD는 기존의 공정성 지표가 예측 대상과 민감 속성이 분리된 상황을 가정하는 것과 달리, 예측 대상 자체가 민감 속성인 경우의 편향을 측정하도록 설계되었다. 실험 과정에서 'Corrected informed' 프롬프트를 통해 모델에게 특정 테마나 감정에 매몰되지 말라고 지시했을 때 인종 예측의 편향이 유의미하게 감소했으며, 이는 모델의 추론 과정을 분석하여 프롬프트를 개선하는 설명 가능 기반 프롬프트 엔지니어링의 효용성을 입증한다.

한계점

노래 가사라는 특정 장르에 국한된 실험이므로 다른 텍스트 도메인으로 일반화하기 어렵다. 또한 인종을 거대 지역으로 단순화하여 지역 내의 다양한 문화적 차이를 충분히 반영하지 못했으며, 고스트라이터의 존재나 번역 과정에서의 스타일 왜곡 가능성도 한계로 남는다.

키워드

LLM(대형 언어 모델)Author Profiling(저자 프로파일링)Cultural Bias(문화적 편향)Fairness Metrics(공정성 지표)Zero-shot Learning(제로샷 학습)