SEC 공시 자료 분석을 위한 오픈소스 금융 리서치 에이전트 구축기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

SEC 10-K와 같은 대규모 금융 문서를 처리하기 위해 텍스트와 표 분리 검색, 교차 인코더 재순위화, 에이전트형 RAG 구조를 도입하여 FinanceBench 정확도를 91%까지 향상시켰다.

배경

6만 토큰에 달하는 SEC 10-K 공시 자료를 효율적으로 분석하기 위해 오픈소스 도구 기반의 RAG 시스템을 구축했다. 나이브 RAG의 낮은 정확도를 극복하고 실무 수준의 성능을 확보하기 위해 다양한 엔지니어링 기법을 적용하여 성능을 개선한 과정을 공유했다.

의미 / 영향

금융 도메인과 같이 문서 구조가 복잡하고 데이터 밀도가 높은 분야에서는 단순한 RAG보다 에이전트 기반의 다단계 추론 구조가 훨씬 우수한 성능을 발휘한다. 오픈소스 모델과 정교한 엔지니어링 조합만으로도 상용 솔루션에 필적하는 91%의 정확도를 달성할 수 있음이 확인됐다.

커뮤니티 반응

작성자의 구체적인 벤치마크 결과와 오픈소스 접근 방식에 대해 긍정적인 반응이 나타났다. 특히 금융 데이터 처리의 고질적인 문제인 표 데이터 추출과 대규모 문서 처리 전략에 대한 기술적 세부 사항이 주목받았다.

주요 논점

01찬성다수

단순 RAG보다 에이전트 기반의 다단계 추론 구조가 복잡한 문서 분석에 훨씬 우수하다

합의점 vs 논쟁점

합의점

금융 도메인에서 표 데이터 처리는 별도의 전략이 필요하다
재순위화(Reranking)는 검색 품질을 높이는 가장 확실한 방법 중 하나이다

섹션별 상세

텍스트와 표 데이터의 검색 프로세스를 분리하여 처리 효율을 높였다. 금융 문서의 핵심인 표 데이터를 일반 텍스트와 동일하게 처리할 경우 발생하는 정보 손실을 방지하기 위해 별도의 추출 및 검색 전략을 사용했다. 이를 통해 수치 정보가 밀집된 표 데이터에 대한 검색 정확도를 획기적으로 개선했다.

공격적인 검색 후 교차 인코더(Cross-Encoder)를 통한 재순위화(Reranking)를 수행했다. 초기 단계에서 100개의 청크를 검색한 뒤, 재순위화 모델을 통해 가장 관련성이 높은 20개로 압축함으로써 컨텍스트 품질을 극대화했다. 이 과정은 검색된 정보의 노이즈를 제거하고 모델이 가장 정확한 근거에 집중하도록 돕는 역할을 했다.

문서 전체를 대상으로 하는 대신 SEC 섹션별 계층적 검색(Hierarchical Search)을 도입했다. 방대한 10-K 문서 구조를 반영하여 섹션 단위로 먼저 접근함으로써 검색 범위를 좁히고 정확도를 개선했다. 특정 재무 정보가 위치할 가능성이 높은 섹션을 우선적으로 탐색하는 방식이 유효하게 작용했다.

반복적 검색과 메모리 기능을 갖춘 에이전트형 RAG(Agentic RAG) 구조로 전환했다. 이전 단계의 답변을 바탕으로 다음 검색 쿼리를 생성하는 반복적인 프로세스를 통해 복잡한 금융 질문에 대한 정교한 답변이 가능해졌다. 단순한 1회성 검색보다 에이전트가 스스로 판단하여 부족한 정보를 보충하는 방식이 성능 향상의 핵심이었다.

실무 Takeaway

나이브 RAG에서 에이전트형 RAG로의 전환이 금융 데이터 분석 정확도 향상의 핵심이다
표 데이터와 텍스트 데이터를 분리하여 처리하는 것이 금융 도메인에서 필수적이다
교차 인코더를 활용한 재순위화는 검색 결과의 노이즈를 줄이는 데 매우 효과적이다
LLM-as-judge 평가 방식은 프롬프트 캘리브레이션에 상당한 노력이 필요하다

언급된 도구

FinanceBench추천

금융 도메인 QA 성능 측정을 위한 벤치마크 데이터셋

Cross-Encoder추천

검색된 청크의 관련성을 재평가하여 순위를 조정하는 모델

언급된 리소스

문서Building Agentic RAG for Financial Research

GitHubFinance Agent GitHub Repository