핵심 요약
종교적 질문은 정확한 출처와 정밀한 계산이 필수적이지만, 일반적인 LLM은 환각 현상으로 인해 잘못된 정보를 제공할 위험이 큽니다. 이 논문은 단순 검색을 넘어 전문 계산기와 검증 도구를 결합한 멀티 에이전트 구조로 이 문제를 해결하며, 실제 서비스에서 190만 회 이상의 사용량을 기록하며 실효성을 입증했습니다.
왜 중요한가
종교적 질문은 정확한 출처와 정밀한 계산이 필수적이지만, 일반적인 LLM은 환각 현상으로 인해 잘못된 정보를 제공할 위험이 큽니다. 이 논문은 단순 검색을 넘어 전문 계산기와 검증 도구를 결합한 멀티 에이전트 구조로 이 문제를 해결하며, 실제 서비스에서 190만 회 이상의 사용량을 기록하며 실효성을 입증했습니다.
핵심 기여
멀티 에이전트 도구 활용 아키텍처
고정된 RAG 파이프라인 대신 질문의 의도에 따라 전문 계산기, 검색기, 검증 모듈로 쿼리를 분기하는 에이전트 구조를 제안함.
결정론적 종교 율법 계산기 통합
자카트(Zakat) 및 상속(Inheritance)과 같이 엄격한 산술 규칙이 필요한 영역을 위해 LLM의 생성이 아닌 규칙 기반의 결정론적 계산 엔진을 구축함.
구절 단위 경전 검색 및 유효성 검증
쿠란(Quran) 구절의 정확한 문구 검색과 인용구의 유효성을 사후에 검증하는 메커니즘을 통해 종교적 텍스트의 환각 현상을 억제함.
이중 언어 지원 및 높은 의도 분류 정확도
아랍어와 영어를 동시에 지원하며, 하이브리드 분류기를 통해 90.1%의 높은 의도 분류 정확도를 달성하여 시스템의 안정성을 확보함.
핵심 아이디어 이해하기
LLM의 임베딩 기반 검색(RAG)은 문맥적 유사성을 찾는 데 탁월하지만, 종교 경전처럼 한 글자 차이로 의미가 변하는 정확한 인용이나 복잡한 산술 규칙이 필요한 영역에서는 환각(Hallucination)을 일으키기 쉽습니다. 기존의 단순 검색-생성 방식은 이러한 정밀한 제약 조건을 반영하지 못해 신뢰할 수 없는 답변을 생성하는 한계가 있습니다. Fanar-Sadiq은 질문이 들어오면 먼저 LLM 분류기를 통해 사용자의 의도를 파악하고, 이를 '도구 호출'이나 '결정론적 계산' 경로로 분기시킵니다. 예를 들어 상속 관련 질문은 수식 기반의 계산기로, 경전 구절 요청은 구절 단위 검색기로 전달하여 LLM이 임의로 텍스트를 생성할 여지를 차단합니다. 결과적으로 수치적 오류와 경전 오인용을 원천적으로 방지하며, 모든 답변에 검증된 출처 태그를 부착하여 투명성을 높입니다. 이는 단순한 성능 향상을 넘어 종교적/법적 신뢰성이 중요한 도메인에서 AI가 실질적으로 활용될 수 있는 아키텍처를 제시합니다.
방법론
Hybrid Query Classifier는 LLM을 주 분류기로 사용하여 9가지 의도를 식별하며, 분류 신뢰도가 0.5 미만일 경우 Qwen3-Embedding-4B를 이용한 코사인 유사도 기반 Fallback 메커니즘을 작동시킵니다. [유사도 sim1, sim2를 입력으로] -> [(sim1 - sim2) / 2 + 0.5 연산을 수행해] -> [0에서 1 사이의 신뢰도 점수를 얻고] -> [이 값은 분류 결과의 확실성을 나타내며 임계값에 따라 실행 경로를 결정하는 기준이 됩니다.] Calculation Pipeline은 자카트와 상속 지분 계산을 위해 구축된 결정론적 모듈입니다. 자카트 계산의 경우 [자산 A, 부채 L, 금/은 시세 P를 입력으로] -> [순자산 Anet = Amonetary - Ldebts를 계산하고 임계값 N과 비교하여 0.025를 곱하는 연산을 수행해] -> [최종 납부액 Z를 얻고] -> [이 값은 종교적 의무로 납부해야 할 정확한 금액을 의미합니다.] Knowledge Retrieval Pipeline은 50만 개 이상의 문서를 벡터 DB에 저장하고 검색하며, 특정 구절의 통계나 정확한 텍스트 추출을 위해 자연어를 SQL로 변환하는 NL2SQL 모듈을 활용합니다. 답변 생성 후에는 [CITE:N] 형태의 인용 태그를 삽입하고 사후 검증을 통해 출처의 정확성을 보장합니다.
주요 결과
의도 분류기 성능 평가에서 90.1%의 정확도를 기록하며 GPT-5(89.3%)와 Gemini(89.7%)를 상회하는 성능을 보였습니다. 이는 특정 도메인에 특화된 분류 체계와 Fallback 메커니즘의 효과를 입증합니다. IslamicFaithQA 벤치마크에서는 65.4%의 정확도를 달성하여 기존 최고 성능 모델인 Gemini-3-Pro(56.6%) 대비 약 9%p 향상된 결과를 확인했습니다. 특히 환각 억제가 중요한 생성형 QA 과제에서 큰 폭의 개선이 나타났습니다. 실제 서비스 운영 데이터 분석 결과, 약 1년 동안 190만 회 이상의 접속이 발생했으며 사용자 피드백 중 77.4%가 긍정적인 반응을 보여 실생활에서의 유용성을 증명했습니다.
실무 활용
API 및 웹 애플리케이션을 통해 실제 서비스 중이며, 종교적 가이드라인과 정밀한 계산이 필요한 다양한 이슬람 관련 서비스에 즉시 적용 가능합니다.
- 이슬람 금융 서비스의 자카트 계산 자동화
- 종교 교육 플랫폼의 쿠란 구절 검색 및 검증
- 상속 지분 분배를 위한 법률 보조 도구
기술 상세
전체 아키텍처는 Hybrid Query Classifier, Tool Action Agent, Specialized Modules, Response Assembler로 구성된 계층적 멀티 에이전트 구조를 채택했습니다. 이는 단일 모델의 생성 능력에 의존하지 않고 각 작업에 최적화된 도구를 오케스트레이션하는 방식입니다. 의도 기반 라우팅(Intent-aware Routing)은 9가지 세부 카테고리를 식별하여 실행 경로를 최적화합니다. 특히 상속 계산 모듈은 Sunni 율법의 Madhhab별 차이를 조건문 분기로 처리하여 복잡한 법적 해석 차이를 정확하게 반영합니다. 검증 메커니즘은 답변 생성 과정에서 [CITE:N] 형태의 정규화된 인용 태그를 삽입하고, 검색된 원문과 생성된 텍스트를 대조하여 인용구의 정확성을 보장합니다. 또한 NL2SQL 모듈을 통해 SQLite DB에서 직접 수치 데이터를 추출함으로써 산술적 오류를 원천 차단합니다.
한계점
상속 계산기가 모든 이슬람 종파와 복잡한 분쟁 사례를 완벽히 다루지는 못하며, 의도 분류 단계에서 오류가 발생할 경우 하위 모듈로 잘못된 쿼리가 전달될 가능성이 존재합니다. 또한 검색된 문서의 품질과 대표성에 따라 답변의 신뢰도가 영향을 받을 수 있습니다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료