핵심 요약
아랍어 시는 복잡한 운율과 방언의 다양성으로 인해 AI가 생성하기 매우 까다로운 영역이다. 이 논문은 현대 표준 아랍어뿐만 아니라 4개의 주요 방언을 포함하는 대규모 지시어 데이터셋을 구축하여, 사용자가 원하는 스타일과 운율에 맞춰 시를 쓰고 수정할 수 있는 제어 가능한 생성 기술을 제시한다.
왜 중요한가
아랍어 시는 복잡한 운율과 방언의 다양성으로 인해 AI가 생성하기 매우 까다로운 영역이다. 이 논문은 현대 표준 아랍어뿐만 아니라 4개의 주요 방언을 포함하는 대규모 지시어 데이터셋을 구축하여, 사용자가 원하는 스타일과 운율에 맞춰 시를 쓰고 수정할 수 있는 제어 가능한 생성 기술을 제시한다.
핵심 기여
대규모 아랍어 시 지시어 데이터셋 구축
현대 표준 아랍어(MSA)와 걸프, 레반트, 나일, 북아프리카 등 4개 주요 방언을 아우르는 135만 개의 학습 쌍과 3,220개의 지시어 템플릿을 포함하는 데이터셋을 제작했다.
제어 가능한 시 생성 프레임워크 제안
단순 생성을 넘어 시의 지속(Continuation), 수정(Revision), 분석(Analysis) 등 4가지 핵심 과제와 54개의 세부 과제를 정의하여 시 창작의 전 과정을 지원한다.
다양한 LLM의 아랍어 시 생성 성능 검증
Fanar, Allam, Qwen3, LLaMA 3.1 등 아랍어 특화 모델과 범용 모델을 대상으로 공동 학습 및 커리큘럼 학습 전략을 적용하여 성능 향상을 입증했다.
핵심 아이디어 이해하기
기존의 아랍어 시 관련 AI 연구는 주로 운율 감지나 시인 식별 같은 분석적 작업에 치중되어 있었으며, 생성 모델은 현대 표준 아랍어에만 국한되어 방언의 풍부함을 담아내지 못했다. 시는 단어의 의미뿐만 아니라 음절의 장단에 따른 운율(Meter)과 행 끝의 압운(Rhyme)이 엄격하게 지켜져야 하므로, 단순한 언어 모델링만으로는 구조적으로 완벽한 시를 생성하기 어렵다.
이 연구는 시의 구조적 특징과 방언의 특성을 LLM이 학습할 수 있도록 '지시어 튜닝(Instruction Tuning)' 방식을 도입했다. 시의 시대, 장르, 운율, 방언 정보를 메타데이터로 추출하고 이를 자연어 지시어와 결합하여 모델이 특정 제약 조건 하에서 텍스트를 생성하도록 유도한다. 이는 모델이 단순히 다음 단어를 예측하는 것을 넘어, 주어진 운율 체계라는 틀 안에서 창의적인 표현을 배치하도록 학습시키는 원리이다.
결과적으로 모델은 사용자가 '이슬람 초기 시대 스타일로, 알-바시트 운율을 사용하여 로맨틱한 시를 써달라'는 복잡한 요구사항을 이해하게 된다. 실험 결과, 도메인 특화 데이터로 파인튜닝된 모델은 구조적 결함이 적고 문화적으로 적절한 시를 생성하며, 특히 방언 간의 미묘한 언어적 차이를 반영하는 능력이 크게 향상되었다.
방법론
데이터 수집 및 통합 단계에서는 PoetsGate, Adab 등 주요 아랍어 시 사이트에서 데이터를 수집하여 표준화된 형식으로 통합했다. 각 시 구절을 한 줄씩 배치하고 중복을 제거했으며, Gemini 2.5 Pro를 활용해 시의 주제를 나타내는 키워드와 핵심 구절을 자동 생성하여 메타데이터를 보강했다.
지시어 데이터셋 구축을 위해 생성, 지속, 수정, 분석의 4개 작업군을 설정했다. 생성 작업은 메타데이터를 입력으로 시 전체를 작성하고, 지속 작업은 기존 구절 뒤를 잇는다. 수정 작업은 의도적으로 훼손된 시(운율 파괴 등)를 정상으로 복구하며, 분석 작업은 객관식 질문을 통해 시의 속성을 맞춘다. 각 작업에는 5개 방언별로 원어민이 작성한 다양한 템플릿이 적용됐다.
학습 전략으로는 모든 작업을 무작위로 섞어 학습하는 Joint Training과 난이도를 높여가는 Curriculum Learning(분석 → 지속 → 생성 → 수정 순)을 비교했다. 효율적인 학습을 위해 LoRA(Low-Rank Adaptation) 기법을 사용했으며, rank=64, alpha=32 설정을 적용해 2 에포크 동안 파인튜닝을 진행했다.
주요 결과
자동 평가 지표인 Gemini-2.5-Flash 스코어(1~5점)에서 파인튜닝된 모델들은 모든 작업에서 베이스 모델 대비 큰 폭의 성능 향상을 보였다. 특히 ALLaM-7B 모델은 생성 작업에서 3.02점에서 3.99점으로 점수가 상승하며 가장 우수한 성능을 기록했다. Qwen3-8B 역시 2.24점에서 3.66점으로 63%의 높은 향상률을 보였다.
작업별 난이도 분석 결과, 시를 처음부터 쓰는 '생성' 작업의 점수가 가장 높았으며, 기존 맥락과 운율을 유지해야 하는 '지속'과 '수정' 작업은 상대적으로 낮은 점수를 기록해 더 높은 기술적 난이도를 시사했다. 방언별 평가에서는 현대 표준 아랍어(MSA)뿐만 아니라 걸프, 레반트 등 주요 방언에서도 고른 성능 향상이 확인되어 모델의 방언 적응력을 입증했다.
원어민 전문가를 통한 인간 평가에서도 파인튜닝된 모델은 유창성(Fluency)과 일관성(Coherence) 측면에서 높은 점수를 받았다. 특히 ALLaM-7B 모델은 유창성에서 4.20/5.0점을 기록하며 인간 수준에 근접한 결과를 보였으나, 예술적 깊이를 평가하는 시적 품질(Poetic Quality) 점수는 3.82점으로 나타나 창의적 표현 영역에서는 여전히 개선의 여지가 있음을 보여주었다.
기술 상세
본 연구는 아랍어 시 생성의 제어 가능성을 높이기 위해 54개의 세부 작업(Subtasks)을 정의했다. 이는 입력값(시 제목, 시인 이름, 운율 등)과 출력값(시 본문, 메타데이터 등)의 조합을 다양화하여 모델이 시의 구조적 특징을 다각도에서 이해하도록 설계된 것이다.
학습에 사용된 모델 중 ALLaM-7B와 Fanar-1-9B는 아랍어에 특화된 토크나이저와 형태소 이해력을 갖추고 있어, 범용 모델인 LLaMA나 Qwen보다 초기 성능 및 학습 효율이 높게 나타났다. 이는 시와 같이 언어 고유의 리듬감이 중요한 영역에서는 도메인 특화 사전 학습(Pre-training)이 필수적임을 시사한다.
평가 프레임워크로는 LLM-as-a-Judge 방식을 채택하여 Gemini 2.5 Flash가 준수 여부(Compliance), 유창성, 일관성, 시적 품질의 4개 항목을 5점 척도로 평가하게 했다. 또한 LM-Eval-Harness를 활용해 분석 작업을 객관식 문제로 변환하여 모델의 논리적 추론 능력을 정량적으로 측정했다.
한계점
LoRA 기반의 파라미터 효율적 미세 조정(PEFT)을 사용했기 때문에 전체 모델 파인튜닝에 비해 복잡한 시적 구조나 미묘한 스타일적 뉘앙스를 포착하는 데 한계가 있을 수 있다. 또한 데이터셋의 시적 내용이 주로 역사적이고 고전적인 작품에 치중되어 있어, 현대적인 구어체나 최신 방언의 변화를 완벽히 반영하지 못할 가능성이 있다.
실무 활용
이 연구에서 공개한 데이터셋과 모델은 아랍어권 사용자를 위한 창의적 글쓰기 보조 도구로 즉시 활용 가능하다. 특히 교육 및 문화 콘텐츠 제작 분야에서 높은 가치를 지닌다.
- 아랍어 시 창작 지망생을 위한 운율 및 압운 교정 에이전트
- 특정 역사적 시대나 지역 방언 스타일을 재현하는 문화 콘텐츠 생성 도구
- 아랍어 문학 교육을 위한 시 구조 분석 및 자동 채점 시스템
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.