핵심 요약
특허 심사는 고도의 기술적 전문성과 법적 논리가 결합된 복잡한 과정이지만, 기존 AI 연구는 단순 분류나 추출에 그쳤다. 이 논문은 심사관의 거절 이유 통지(Office Action)와 출원인의 반박(Rebuttal)이라는 상호작용적 전 과정을 모델링한 최초의 벤치마크를 제시하여 LLM의 실질적인 법적 추론 능력을 평가한다.
왜 중요한가
특허 심사는 고도의 기술적 전문성과 법적 논리가 결합된 복잡한 과정이지만, 기존 AI 연구는 단순 분류나 추출에 그쳤다. 이 논문은 심사관의 거절 이유 통지(Office Action)와 출원인의 반박(Rebuttal)이라는 상호작용적 전 과정을 모델링한 최초의 벤치마크를 제시하여 LLM의 실질적인 법적 추론 능력을 평가한다.
핵심 기여
전 단계 특허 심사 벤치마크 PatRe 구축
거절 이유 통지(OA) 생성과 출원인 반박 생성이라는 특허 심사의 전체 수명 주기를 포함하는 최초의 벤치마크이다. 480개의 실제 특허 심사 기록을 바탕으로 다회차 상호작용 과정을 모델링했다.
계층적 평가 프레임워크 설계
단순한 텍스트 유사도를 넘어 법적 근거 일치도(Statute Precision)와 결정 정확도(Decision Accuracy)를 측정하는 결정론적 지표, 그리고 LLM-as-a-judge를 활용한 5가지 차원의 의미론적 감사를 결합했다.
LLM의 역할별 성능 비대칭성 발견
실험 결과 LLM은 능동적으로 문제를 발견해야 하는 심사관 역할보다 제시된 거절 이유에 대응하는 반박자 역할에서 훨씬 더 높은 성능을 보임을 확인했다.
핵심 아이디어 이해하기
특허 심사는 단순히 문서를 분류하는 작업이 아니라, 기존 기술(Prior Art)과 새로운 청구항 사이의 미세한 차이를 법적 조항에 근거해 논증하는 과정이다. 기존 연구들은 BERT와 같은 모델을 사용해 특허의 승인 여부만을 예측하는 이진 분류에 집중했으나, 이는 실제 심사관이 수행하는 복잡한 기술적 매핑과 법적 해석 과정을 반영하지 못한다.
PatRe는 이를 해결하기 위해 심사 과정을 '정당화와 응답'의 동적인 다회차 대화로 재정의한다. 모델은 청구항의 각 요소를 기존 기술의 공개 내용과 대조하는 Element-by-element mapping을 수행해야 하며, 이 과정에서 35 U.S.C. §102(신규성)나 §103(진보성)과 같은 구체적인 법적 근거를 정확히 인용해야 한다.
결과적으로 이 접근법은 LLM이 단순히 전문 용어를 흉내 내는 수준을 넘어, 실제 증거에 기반한 논리적 추론을 수행하는지 검증한다. 특히 외부 참조 문서가 주어졌을 때와 그렇지 않을 때의 성능 차이를 분석함으로써, 모델의 내부 지식과 외부 증거 활용 능력 사이의 균형을 평가한다.
방법론
PatRe 벤치마크는 두 가지 핵심 태스크로 구성된다. 첫 번째는 거절 이유 통지(OA) 생성으로, 모델은 청구항(Claims)과 기존 기술(Prior Art)을 입력받아 법적 결함이 있는 부분을 식별하고 보고서를 작성한다. 이 과정은 직접 프롬프팅(OA-DP), 정답 참조 문서 제공(OA-RO), 검색 시뮬레이션(OA-RS)의 세 가지 설정으로 세분화되어 정보 가이드 수준에 따른 성능 변화를 측정한다.
두 번째 태스크는 출원인 반박(Rebuttal) 생성이다. 심사관의 OA와 인용된 기존 기술이 주어지면, 모델은 이에 대항하는 기술적 논리와 법적 주장을 생성해야 한다. [OA의 거절 근거 → 청구항의 기술적 특징 대조 → 논리적 일관성 유지] 순으로 계산 및 정렬이 이루어지며, 이를 통해 모델의 방어적 논증 능력을 평가한다.
데이터 수집을 위해 USPTO 공공 데이터베이스에서 특허의 전체 심사 이력을 추출하는 파이프라인을 구축했다. 수집된 데이터는 인간 전문가의 다단계 검수를 거쳐 타임라인의 구조적 무결성과 인용 문헌-거절 사유 간의 논리적 일관성을 확인하며, 개인 식별 정보는 모두 비식별화 처리되었다.
관련 Figure

데이터셋 구성, 태스크 정형화(OA 생성 및 반박 생성), 그리고 계층적 평가 체계로 이어지는 전체 연구 흐름을 시각화한다. 특히 OA 생성의 세 가지 설정(DP, RO, RS)과 다차원 점수 보고서의 구조를 명확히 보여준다.
PatRe 벤치마크의 전체 프레임워크를 보여주는 다이어그램이다.
주요 결과
실험 결과, GPT-5-mini가 OA 생성 결정 정확도(51.4%)와 반박 생성의 포인트별 커버리지(90.5%)에서 가장 우수한 성능을 보였다. 특히 반박 생성 태스크에서 모델들은 평균 8.54점(10점 만점)의 높은 점수를 기록했으나, OA 생성에서는 4.89점에 그쳐 '수동적 방어'에는 능숙하지만 '능동적 문제 발견'에는 취약함을 드러냈다.
법적 조항별 분석에서는 §101(특허 대상성)에서 72.8%의 높은 허위 거절(Fabrication) 발생률이 나타났으며, §103(진보성)과 §112(명확성)에서도 과도한 법 집행 경향이 관찰되었다. 이는 모델들이 엄격한 심사를 수행하려다 보니 존재하지 않는 결함을 지어내는 '과잉 거절' 편향을 가지고 있음을 시사한다.
또한, 텍스트 유사도 지표인 ROUGE-L과 실제 법적 정확도 사이의 상관관계가 매우 낮음(Kendall’s τ = 0.0258)이 확인되었다. 이는 단순히 전문적인 문체를 흉내 내는 것과 실제 법적 논리의 정확성이 별개임을 의미하며, 특허 심사 평가에서 LLM-as-a-judge 방식의 필요성을 뒷받침한다.
관련 Figure

GPT-5-mini를 포함한 대부분의 모델이 실제 허가되어야 할 케이스를 거절로 잘못 판단하는 비율(False Rejection)이 매우 높음을 보여준다. 이는 모델들이 특허 심사 시 지나치게 비판적인 편향을 가지고 있음을 입증한다.
허가(Allowance)와 거절(Rejection) 분류에 대한 모델별 혼동 행렬(Heatmap)이다.

§101 조항에서 허위 생성(Fabrication)과 누락(Omission)이 동시에 발생하는 '이중 실패' 현상을 시각화한다. 반면 §103과 §112에서는 누락보다 허위 생성이 압도적으로 많아 과잉 집행(Over-Enforcement) 경향이 뚜렷함을 나타낸다.
법적 조항별 오류 모드(Fabrication vs Omission)를 나타낸 그래프이다.
기술 상세
PatRe의 아키텍처는 특허 심사의 반복적 특성을 반영하여 (Claims, Prior Art, History)를 입력으로 취하는 시퀀셜 모델링 구조를 가진다. OA 생성 시 모델은 35 U.S.C. §101, 102, 103, 112 조항을 명시적으로 적용하도록 강제하는 'Active Statute Gating' 메커니즘을 사용한다.
평가 시스템은 계층적으로 설계되었다. 하위 계층에서는 Decision Accuracy(이진 분류 정확도)와 Statute Precision(인용 조항의 정밀도)을 측정한다. 상위 계층에서는 Gemini-3.1-Flash-Lite를 Auditor로 설정하여 Soundness(논리적 타당성), Clarity(명확성), Constructiveness(건설성), Completeness(완전성), Language Style(언어 양식)의 5개 지표를 1-10점 척도로 평가한다.
구현 측면에서 오픈소스 모델(Llama 3.3, Qwen 3.5 등)은 vLLM 프레임워크를 통해 8개의 NVIDIA A800 GPU에서 서빙되었으며, 모든 실험은 결과의 일관성을 위해 Temperature 0.0으로 설정되었다. 특히 OA-RS 설정에서는 BM25를 사용하여 상위 k개의 노이즈 문헌을 섞어 모델의 정보 필터링 능력을 테스트했다.
한계점
현재 벤치마크는 미국 특허청(USPTO)의 데이터와 미국 특허법에 국한되어 있어 다른 국가의 사법 체계에 직접 적용하기 어렵다. 또한, 이미지나 도면 분석이 포함되지 않은 텍스트 중심의 평가라는 점이 한계로 명시되었다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.