클로드 코드(Claude Code)와 문서 처리 전용 에이전트의 데이터 추출 정확도 비교 실험

핵심 요약

보험 서류 10건을 대상으로 클로드 코드와 전용 도구 Kudra의 데이터 추출 정확도를 비교한 결과, 범용 에이전트의 높은 오류율과 '설득력 있는 환각' 문제가 확인됐다.

배경

작성자는 최근 개발 업무에서 성능이 검증된 클로드 코드를 보험금 청구서 데이터 추출에 적용해 보았으나, 전용 문서 처리 도구와 비교했을 때 심각한 정확도 차이와 신뢰성 문제를 발견하여 이를 공유했다.

의미 / 영향

이번 실험은 RAG나 데이터 파이프라인 설계 시 모델의 추론 능력보다 데이터 추출의 정확도가 우선시되어야 함을 보여준다. 범용 에이전트의 편리함에 의존하기보다 업무 성격에 맞는 전용 도구를 통합하는 것이 프로덕션 신뢰성을 확보하는 길이다.

커뮤니티 반응

작성자의 실험 결과에 대해 범용 모델의 한계를 인정하며, 특히 금융 및 보험 등 수치 정확도가 생명인 분야에서의 위험성에 공감하는 분위기이다.

주요 논점

01중립다수

클로드 코드는 개발 업무에는 훌륭하지만, 정밀한 데이터 추출에는 전용 아키텍처를 가진 도구가 필수적이다.

합의점 vs 논쟁점

합의점

범용 LLM의 '자신감 있는 환각'은 수치 데이터 처리에서 치명적이다.
단순한 시각적 점검만으로는 AI가 생성한 정교한 오답을 걸러내기 어렵다.

논쟁점

범용 에이전트의 프롬프트 엔지니어링 고도화만으로 전용 도구와의 정확도 격차를 극복할 수 있는지 여부

실용적 조언

데이터 추출 작업 시 추론(Reasoning) 기반 모델보다는 문서 구조를 직접 파악하는 전용 파싱 도구를 우선 고려해야 한다.
프로덕션 배포 전에는 반드시 원본 데이터와 필드 단위로 대조하는 전수 검사 샘플링이 필요하다.

언급된 도구

Claude Code비추천

개발 보조 및 범용 에이전트

Kudra추천

문서 처리 및 데이터 추출 전용 도구

ChatGPT비추천

범용 대화형 AI

섹션별 상세

클로드 코드는 10개의 보험 서류에서 4개의 오류를 범하며 40%의 문서당 오류율을 기록했다. 숫자가 뒤바뀌거나, 존재하지 않는 '0'이 금액에 추가되고, 특정 문서를 아예 누락하는 등 오류의 양상이 매우 불규칙했다. 특히 이러한 오류들이 올바른 형식으로 출력되어 육안 점검으로는 식별하기 어려운 '설득력 있는 환각' 형태를 띠었다는 점이 가장 큰 문제로 지적됐다.

반면 문서 처리 전용 도구인 Kudra를 사용했을 때는 10건 모두에서 0%의 오류율을 기록했다. Kudra는 문서를 '추론'하는 대신 문서의 구조적 아키텍처를 쿼리하여 필드 위치를 정확히 파악하는 방식을 사용했다. 이를 통해 복잡한 일련번호나 소수점 단위의 금액까지 원본과 완벽하게 일치하는 결과를 도출하며 작업에 적합한 도구 선택의 중요성을 입증했다.

ChatGPT를 통한 테스트에서는 인터페이스 제약으로 한 번에 3개의 PDF만 처리 가능했으며, 데이터가 명확히 존재함에도 불구하고 정보가 없다고 답변하는 현상이 발생했다. 모델은 텍스트 추출 실패를 인지하지 못한 채 정보 부재로 단정 짓는 '자신감 있는 실패'를 보였다. 이는 대규모 문서 워크플로우에서 범용 모델을 그대로 사용할 때 발생할 수 있는 데이터 누락 위험을 시사한다.

실무 Takeaway

범용 AI 에이전트는 문서 추출 시 형식은 완벽하지만 내용은 틀린 '설득력 있는 환각'을 생성할 위험이 크다.
추론 기반 추출은 매 문서마다 새로운 인퍼런스 문제를 해결해야 하므로 오류가 불규칙하고 예측 불가능하다.
구조 쿼리 방식의 전용 도구가 데이터 무결성이 중요한 프로덕션 환경에서 훨씬 안정적인 성능을 보여준다.
소규모 테스트에서의 40% 오류율은 수천 건 단위의 대규모 처리 시 수습 불가능한 데이터 오염으로 이어질 수 있다.