POEMetric: 인류의 마지막 연 - LLM 시 생성 능력의 종합적 평가 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM이 논리적 추론과 코딩에서는 뛰어난 성과를 보이지만, 예술적 창의성이 요구되는 시 쓰기 영역에서의 한계는 명확히 규명되지 않았습니다. 이 논문은 시의 형식적 정확성을 넘어 감정적 공명과 문학적 장치 활용까지 측정하는 최초의 종합 평가 프레임워크 POEMetric을 통해 인간 시인과 AI의 격차를 수치화했습니다.

왜 중요한가

핵심 기여

종합적 시 평가 프레임워크 POEMetric 제안

형식 정확성, 주제 일치도와 같은 기본 지시 이행 능력부터 창의성, 어휘 다양성, 개성, 감정적 공명, 비유적 장치 활용 등 10가지 차원의 평가 지표를 구축했다.

203편의 고품질 인간 시 데이터셋 구축

7가지 고정된 시 형식(Ballad, Sonnet, Villanelle 등)에 대해 운율, 압운 패턴, 주제, 이미지가 정밀하게 주석 처리된 인간 시 데이터셋을 큐레이션했다.

30개 최신 LLM에 대한 대규모 벤치마크 수행

DeepSeek-R1, Gemini-2.5-Pro, GPT-4o 등 30개 모델을 대상으로 6,090편의 시를 생성하고 규칙 기반 알고리즘과 LLM-as-a-judge를 통해 인간 시인과 성능을 비교 분석했다.

핵심 아이디어 이해하기

시 쓰기는 단순한 문장 나열이 아니라 정해진 운율(Meter)과 압운(Rhyme)이라는 엄격한 제약 조건 속에서 작가의 독창적인 감정과 문화적 맥락을 녹여내야 하는 고도의 언어 예술이다. 기존의 LLM 평가는 주로 텍스트의 유창함이나 단순한 형식 준수 여부에만 집중하여, 시의 본질인 '예술적 아름다움'과 '작가의 의도'를 포착하지 못하는 한계가 있었다.

이 논문은 LLM이 Transformer 아키텍처를 통해 단어 간의 통계적 관계를 학습하여 형식적인 패턴은 잘 흉내 낼 수 있지만, 인간 고유의 경험에서 우러나오는 개성(Idiosyncrasy)이나 깊은 감정적 울림을 생성하는 데에는 여전히 어려움을 겪는다는 점에 주목한다. 이를 검증하기 위해 시 문학 비평 이론인 '실천 비평(Practical Criticism)'의 요소를 데이터 과학적 지표로 변환했다.

결과적으로 Gemini-2.5-Pro와 같은 최상위 모델조차 형식적 정확도에서는 인간에 근접했으나, 창의성(4.02 vs 3.20)과 문학적 장치 활용(4.67 vs 3.20) 등 고차원적 예술성 지표에서는 인간 시인에게 크게 뒤처짐을 확인했다. 이는 LLM이 '언어적 배열'에는 능숙해도 '예술적 창조'의 단계에는 도달하지 못했음을 시사한다.

방법론

POEMetric 프레임워크는 세 가지 계층으로 구성된다. 첫째, 기본 지시 이행(Basic Instruction-following)은 시의 형식(Form)과 주제(Theme) 일치도를 측정한다. 둘째, 심화 창의 능력(Advanced Creative Abilities)은 창의성, 어휘 다양성, 개성, 감정적 공명, 이미지 활용, 문학적 장치(은유, 직유 등)를 평가한다. 셋째, 종합 평가(General Appraisal)는 전체적인 품질과 저자 판별(Authorship Estimation)을 다룬다.

평가 방식은 다각화를 위해 세 가지 경로를 병행한다. (1) 규칙 기반 알고리즘: CMUdict를 활용해 음절의 강약 패턴을 분석하고 운율 준수 여부를 0.7 임계값 기준으로 자동 판별한다. (2) LLM-as-a-judge: 파일럿 테스트를 통해 인간 전문가와 가장 높은 일치도(PAo=0.662)를 보인 Gemini-2.5-Pro를 평가자로 선정하여 5점 척도로 채점한다. (3) 인간 전문가 검증: 시인 및 영문학 전공자로 구성된 평가단이 익명화된 시들을 직접 평가하여 자동화된 점수의 신뢰성을 확보한다.

형식 정확도 계산 시에는 [시 텍스트 입력] → [토큰화 및 음절 강세 추출] → [대상 운율 패턴과 비교 연산] → [일치 비율 산출] 과정을 거친다. 어휘 다양성은 MATTR(Moving Average Type-Token Ratio)을 사용하여 [일정 윈도우 내 고유 단어 수 계산] → [전체 텍스트 평균값 산출] → [어휘의 풍부함 정도]를 측정한다.

주요 결과

실험 결과, 최상위 모델인 Gemini-2.5-Pro는 형식 정확도 4.26점(5점 만점)과 주제 일치도 4.99점을 기록하며 지시 이행 능력에서 탁월함을 보였다. 특히 DeepSeek-R1은 어휘 다양성 지표에서 3.85점을 기록하여 인간 시인의 평균인 3.82점을 근소하게 앞지르는 결과를 나타내기도 했다.

그러나 예술적 심화 지표에서는 인간과 AI의 격차가 뚜렷했다. 인간 시인은 창의성(4.02), 개성(3.95), 감정적 공명(4.06), 이미지 활용(4.49), 문학적 장치(4.67) 모든 항목에서 최고 성능의 LLM을 압도했다. 종합적인 시의 품질 점수에서도 인간은 4.22점을 받은 반면, 가장 뛰어난 모델인 DeepSeek-R1조차 3.20점에 그쳤다.

모델 규모와 성능의 상관관계 분석에서는 파라미터 수가 많을수록 시 생성 능력이 향상되는 경향이 확인되었다. 하지만 o1이나 o3-mini와 같은 추론 특화(Thinking) 모델이 반드시 일반 모델(GPT-4o 등)보다 시를 더 잘 쓰는 것은 아니라는 점이 밝혀졌으며, 증류(Distill) 모델들은 원본 모델보다 전반적으로 낮은 성능을 보였다.

기술 상세

POEMetric은 시의 구조적 특징을 분석하기 위해 CMU 발음 사전을 기반으로 한 음절 강세 추출 알고리즘을 사용한다. 각 행의 마지막 단어에서 음소(Phoneme)를 추출해 압운 체계(Rhyme Scheme)를 'AABB', 'ABCB' 등으로 매핑하며, 이를 대상 형식의 표준 패턴과 비교하여 정확도를 산출한다.

LLM-as-a-judge 설정에서 Gemini-2.5-Pro가 선정된 이유는 DeepSeek-R1이나 GPT-4o에 비해 인간 전문가와의 상관관계(Spearman Correlation ρ = 0.378)가 높고, 고품질 시와 저품질 시를 구분하는 변별력(표준편차 0.63)이 가장 우수했기 때문이다. 이는 단순한 텍스트 생성 능력과 타 모델의 결과물을 평가하는 능력이 별개일 수 있음을 시사한다.

데이터셋 구축 과정에서는 1800년대부터 현재까지의 영미 시 1,309편 중 엄격한 운율 패턴을 따르는 203편을 선별하여 벤치마크의 변별력을 높였다. LLM 생성 시에는 Chain-of-Thought(CoT) 기법을 적용했을 때 모델이 스스로 운율을 계획하고 문학적 장치를 전략적으로 배치하는 사고 과정을 거침을 확인했다.

한계점

본 연구는 영어 시에 국한되어 평가를 진행했으므로 다른 언어권의 시 문학적 특성을 반영하지 못할 수 있다. 또한 자유시(Free-verse)가 아닌 고정된 형식(Fixed-form)의 시를 중심으로 평가가 설계되어 있어, 현대 시의 주류인 자유로운 형식의 예술성을 측정하는 데에는 추가적인 지표 조정이 필요하다.

실무 활용

시 문학 교육 및 AI 창작 보조 도구의 성능 측정 도구로 활용될 수 있습니다. 특히 시의 운율과 압운을 자동 검사하는 알고리즘은 시 작법 학습 서비스에 직접 적용 가능합니다.

AI 시 생성 모델의 예술적 품질 벤치마킹 및 성능 튜닝
시 문학 교육 플랫폼에서 학생들의 습작 운율 및 형식 자동 피드백
창작 보조 도구에서 문학적 장치(은유, 직유 등)의 적절성 평가 지표로 활용

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Poetry Evaluation(시 평가)Creative Writing(창의적 글쓰기)Benchmark(벤치마크)Literary Device(문학적 장치)Meter and Rhyme(운율과 압운)