법률 지식 그래프 생성을 위한 새로운 원샷 ML 아키텍처 개발

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

법률 문서를 텍스트 생성 방식이 아닌 직접적인 토큰 분류와 구조적 예측을 통해 정교한 지식 그래프로 변환하는 Kanon 2 Enricher 모델을 소개한다.

배경

법률 문서의 복잡한 계층 구조와 조밀한 참조 관계를 처리하기 위해 기존의 텍스트 생성 방식 대신 직접적인 그래프 구조 예측을 수행하는 새로운 ML 아키텍처를 설계하고 이를 커뮤니티에 공유했다.

의미 / 영향

법률과 같이 구조가 엄격하고 정확성이 생명인 도메인에서는 LLM의 생성 능력보다 구조적 분류 능력을 극대화하는 것이 실무적 해법이 될 수 있다. 특히 다중 태스크 헤드를 활용한 원샷 예측 방식은 추론 속도와 일관성 측면에서 생성형 모델보다 우위를 점할 가능성이 높다.

커뮤니티 반응

새로운 아키텍처에 대해 긍정적인 반응이며, 특히 환각 문제를 해결하기 위한 분류 기반 접근 방식에 대해 기술적인 질문과 관심이 이어졌다.

주요 논점

01찬성다수

법률 도메인에서 생성형 모델의 환각은 치명적이므로 분류 기반의 구조적 예측이 더 적합한 접근법이다.

합의점 vs 논쟁점

합의점

법률 문서는 일반 텍스트와 달리 계층 구조와 참조 관계가 매우 중요하다는 점에 동의함

논쟁점

58개의 태스크 헤드를 동시에 학습시킬 때 발생하는 최적화 난이도와 컴퓨팅 자원 효율성에 대한 의문

실용적 조언

복잡한 계층 구조를 가진 전문 문서를 처리할 때 생성형 방식보다 분류 기반의 구조적 예측이 환각 방지에 유리함
법률 도메인의 지식 그래프 구축 시 오픈소스 온톨로지인 ILGS를 활용하여 스키마 설계 시간을 단축할 수 있음

섹션별 상세

Kanon 2 Enricher는 텍스트를 토큰 단위로 생성하는 자동 회귀 방식 대신 문서 전체에 대해 직접적인 토큰 레벨 분류를 수행하여 지식 그래프를 구축한다. 이는 법률 문서 특유의 중첩된 계층 구조와 조밀한 참조 관계를 효과적으로 캡처하기 위한 설계이다. 모델은 소스 문서의 풍부한 구조적 표현을 직접 출력하며, 이를 통해 기존의 텍스트 기반 접근법이 가진 한계를 극복했다.

모델 아키텍처는 Isaacus Legal Graph Schema(ILGS)라는 새로운 오픈소스 온톨로지를 기반으로 설계되었으며 58개의 태스크 헤드와 70개의 손실 함수를 사용하여 공동 학습된다. 이를 통해 개체 추출, 분류, 문서 분할, 주석 달기 등 과거에는 별도로 처리되던 여러 작업을 하나의 모델에서 통합 처리한다. 각 노드 타입과 엣지 타입은 전용 태스크 헤드와 연결되어 있어 정밀한 구조적 예측이 가능하다.

생성형 AI의 고질적인 문제인 환각 현상을 방지하기 위해 분류 기반의 접근 방식을 채택한 점이 특징이다. 법률 데이터는 명시적인 구조와 조밀한 참조를 포함하고 있어 텍스트 생성보다 제약된 예측 타겟으로 표현하는 것이 데이터 무결성 측면에서 훨씬 유리하다. 이러한 방식은 근거 없는 링크 생성이나 텍스트 조작 위험을 원천적으로 차단하여 신뢰도를 높였다.

실무 Takeaway

법률 문서의 복잡한 구조를 처리하기 위해 생성 방식이 아닌 직접적인 그래프 구조 예측 아키텍처를 제안함
58개의 태스크 헤드를 통한 다중 작업 학습으로 개체 추출부터 계층적 분할까지 통합 처리함
분류 기반 접근 방식을 통해 생성형 모델의 고질적인 문제인 환각 현상을 원천적으로 해결함
ILGS 온톨로지와 복제 코드를 오픈소스로 공개하여 법률 AI 분야의 기술 투명성을 확보함

언급된 도구

Kanon 2 Enricher추천

법률 문서의 계층적 지식 그래프 변환 모델

Isaacus Legal Graph Schema (ILGS)추천

법률 지식 그래프를 위한 오픈소스 온톨로지

언급된 리소스

문서Kanon 2 Enricher Technical Write-up