표현 안정성을 통한 표 데이터 검색의 강건성 향상

표 데이터를 AI 모델에 입력할 때 CSV, JSON 등 어떤 형식을 선택하느냐에 따라 검색 성능이 크게 요동치는 불안정성 문제를 발견했습니다. 연구진은 여러 형식의 평균값인 '중심점'을 활용해 형식에 상관없이 표의 본질적인 의미를 정확하게 찾아내는 기술을 제안하여 검색 시스템의 신뢰도를 높였습니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

표 직렬화 형식에 따른 검색 불안정성 규명

CSV, HTML, Markdown 등 의미적으로 동일한 표라도 직렬화 형식에 따라 임베딩 벡터가 크게 달라지며, 이것이 실제 검색 순위(Recall@1)의 큰 변동을 초래함을 체계적으로 측정했다.

중심점 기반의 안정적 앵커 표현 제안

다양한 직렬화 형식들의 임베딩 평균인 Centroid가 특정 형식의 노이즈를 상쇄하고 표의 핵심 의미를 더 잘 보존한다는 것을 이론적, 실험적으로 증명했다.

경량 잔차 병목 어댑터 개발

추론 시 단 하나의 직렬화 형식만 사용하더라도 이를 이상적인 Centroid 표현으로 변환해주는 가벼운 어댑터 모듈을 도입하여 추가 비용 없이 성능을 개선했다.

핵심 아이디어 이해하기

Transformer 기반 모델은 2차원 표를 한 줄의 텍스트로 펼쳐서 읽어야 합니다. 이때 행과 열을 구분하는 방식(CSV의 쉼표, HTML의 태그 등)이 모델에게는 일종의 '노이즈'로 작용하여, 표의 내용이 같아도 형식에 따라 임베딩 공간에서 서로 다른 위치에 배치되는 문제가 발생합니다.

이 논문은 동일한 표에서 파생된 여러 형식의 임베딩들이 특정 영역에 모여 있다는 점에 착안했습니다. 각 형식별 임베딩을 '노이즈가 섞인 관측치'로 보고, 이들의 기하학적 중심(Centroid)을 구하면 형식 특유의 편향은 사라지고 표의 순수한 의미 정보만 남게 된다는 원리입니다.

결과적으로 단일 형식을 사용할 때보다 Centroid를 타겟으로 학습된 어댑터를 거쳤을 때, 모델은 표의 겉모양에 현혹되지 않고 질문에 맞는 데이터를 더 일관되게 찾아낼 수 있게 됩니다. 이는 마치 여러 명의 목격자 진술을 종합하여 사건의 실체에 접근하는 것과 유사한 방식입니다.

관련 Figure

#1Chart
(a)는 CSV, HTML 등 형식에 따라 임베딩이 서로 다른 방향으로 흩어져 있음을 보여주며, (b)는 어댑터 적용 후 이들이 공통된 Centroid 지점으로 밀집되는 과정을 시각화하여 제안 방법론의 효과를 직접적으로 증명합니다.
동일한 표의 다양한 직렬화 형식이 임베딩 공간에서 어떻게 분포하는지와 어댑터 적용 후의 변화를 보여주는 PCA 시각화 차트입니다.

방법론

전체 접근 방식은 기존 Retriever를 고정한 상태에서 임베딩을 보정하는 Post-hoc 어댑터를 학습시키는 구조이다. 먼저 동일한 표 T에 대해 다양한 직렬화 형식 S(T)를 생성하고 각각의 임베딩 z_s(T)를 추출한다. 이후 이들의 산술 평균인 c(T)를 계산하여 표준 타겟으로 설정한다.

핵심 메커니즘은 Residual Bottleneck Adapter이다. 입력 임베딩 z_s(T)가 주어지면 [LayerNorm → 선형 축소 → GELU → Dropout → 선형 확장] 과정을 거쳐 보정 벡터를 생성하고, 이를 원본에 더한다. 이때 출력값 z_adapted(T)가 Centroid c(T)에 가까워지도록 유도한다.

학습은 VICReg 기반의 복합 손실 함수를 사용한다. [입력: 어댑터 출력 z, 원본 e, 타겟 c] → [연산: Invariance(z와 c의 거리 최소화), Identity(z와 e의 정렬 유지), Variance(차원별 분산 확보), Covariance(차원 간 중복 제거)] → [결과: 안정적인 보정 임베딩 생성] 순으로 진행된다. 이를 통해 모델이 쿼리와의 호환성을 잃지 않으면서도 형식 노이즈만 효과적으로 제거하도록 한다.

주요 결과

MPNet, BGE-M3, ReasonIR, SPLADE 등 주요 모델을 대상으로 WTQ, WikiSQL, NQ-Tables 데이터셋에서 실험을 진행했다. Centroid 표현은 거의 모든 개별 직렬화 형식보다 높은 검색 순위를 기록했으며, 특히 HTML이나 JSON처럼 형식이 복잡한 경우에 대비해 압도적인 성능 우위를 보였다.

어댑터 적용 결과, 밀집 검색(Dense Retrieval) 모델에서 뚜렷한 개선이 확인됐다. 예를 들어 MPNet 모델의 경우 WTQ 데이터셋의 HTML 형식에서 Recall@1 성능이 0.09에서 0.18로 2배 상승했다. 또한 학습에 사용되지 않은 NQ-Tables 데이터셋에서도 성능 향상이 나타나 높은 일반화 성능을 입증했다.

반면 SPLADE와 같은 희소 검색(Sparse Retrieval) 모델에서는 어댑터의 효과가 제한적이었다. 이는 어댑터의 병목 구조가 희소 벡터의 특성인 활성화 패턴을 왜곡하여 어휘적 일치 성능을 저해하기 때문인 것으로 분석됐다.

관련 Figure

#2Chart
Centroid 기반 표현(*ALL, *DATA 등)이 최상단에 위치하여 개별 직렬화 형식보다 일관되게 우수한 성능을 보임을 나타냅니다. 특히 HTML, JSON 등 복잡한 형식 대비 Centroid의 우위가 통계적으로 유의미함을 보여줍니다.
다양한 표 형식 간의 상대적인 검색 성능 순위 차이를 나타낸 히트맵과 통계적 유의성 검정 결과입니다.

기술 상세

본 연구는 표 직렬화 형식을 단순한 전처리가 아닌 임베딩 안정성을 결정하는 핵심 변수로 재정의했다. 이론적으로 Centroid averaging이 형식에 따른 섭동(Perturbation)을 상쇄하여 안정적인 의미 신호(Stable Semantic Signal)를 복원할 수 있음을 증명했다.

어댑터 아키텍처는 파라미터 효율성을 위해 Bottleneck 구조를 채택했으며, 원본 임베딩 공간의 기하학적 특성을 보존하기 위해 Residual connection을 필수적으로 사용했다. 학습 시에는 VICReg 목적 함수를 도입하여 임베딩 붕괴(Collapse)를 방지하고 쿼리 임베딩과의 정렬을 유지하는 Identity term을 강조했다.

실험 분석 결과, Schema 기반 형식(mschema, ddl 등)은 표 내용과 무관하게 일정한 방향으로 임베딩을 이동시키는 '표 독립적 편향'을 유도하는 반면, 행/열 셔플링과 같은 구조적 변형은 '표 종속적 노이즈'를 유도함을 확인했다. Centroid averaging은 후자의 노이즈를 제거하는 데 특히 효과적이다.

관련 Figure

#4Chart
대각선 아래에 위치한 형식들은 Centroid averaging을 통해 노이즈 제거가 용이한 반면, 대각선 위의 형식들은 고정된 편향을 유도함을 보여줍니다. 이는 어떤 형식에서 어댑터가 더 잘 작동할지 예측하는 기술적 근거가 됩니다.
형식별 임베딩 편향을 표 독립적 성분과 표 종속적 성분으로 분해하여 분석한 산점도입니다.

한계점

어댑터의 효과가 모델 아키텍처에 따라 상이하며, 특히 어휘적 일치에 의존하는 Sparse Retrieval 모델(SPLADE 등)에서는 성능 저하가 발생할 수 있다는 점이 명시됐다. 또한 매우 정제된 데이터 기반의 검색에서는 성능 이득이 크지 않을 수 있다.

실무 활용

기존에 구축된 표 검색 시스템의 인덱스를 전부 다시 만들 필요 없이, 검색 시점에 임베딩만 살짝 보정하여 성능을 높일 수 있는 실용적인 방법입니다.

RAG 시스템에서 다양한 포맷의 표 문서가 섞여 있는 기업 내부 데이터 검색
표 데이터 전처리 과정에서 최적의 직렬화 형식을 고민할 필요 없이 성능을 안정화하고 싶을 때
기존 고정된 임베딩 모델의 성능을 추가 학습 없이 개선하고자 하는 경우

코드 공개 여부: 공개

코드 저장소 보기

키워드

Tabular Retrieval(표 검색)Representation Stability(표현 안정성)Centroid Embedding(중심점 임베딩)Residual Adapter(잔차 어댑터)VICReg(VICReg)

코드 예제

python

z_adapted(T) = z_s(T) + alpha * Up(DropOut(GELU(Down(LN(z_s(T))))))

입력 임베딩에 보정값을 더하는 잔차 병목 어댑터의 핵심 연산 구조

표현 안정성을 통한 표 데이터 검색의 강건성 향상

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

표 직렬화 형식에 따른 검색 불안정성 규명

중심점 기반의 안정적 앵커 표현 제안

경량 잔차 병목 어댑터 개발

핵심 아이디어 이해하기

관련 Figure

방법론

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

기존에 구축된 표 검색 시스템의 인덱스를 전부 다시 만들 필요 없이, 검색 시점에 임베딩만 살짝 보정하여 성능을 높일 수 있는 실용적인 방법입니다.

RAG 시스템에서 다양한 포맷의 표 문서가 섞여 있는 기업 내부 데이터 검색
표 데이터 전처리 과정에서 최적의 직렬화 형식을 고민할 필요 없이 성능을 안정화하고 싶을 때
기존 고정된 임베딩 모델의 성능을 추가 학습 없이 개선하고자 하는 경우

코드 공개 여부: 공개

코드 저장소 보기

키워드

Tabular Retrieval(표 검색)Representation Stability(표현 안정성)Centroid Embedding(중심점 임베딩)Residual Adapter(잔차 어댑터)VICReg(VICReg)

코드 예제

python

z_adapted(T) = z_s(T) + alpha * Up(DropOut(GELU(Down(LN(z_s(T))))))

입력 임베딩에 보정값을 더하는 잔차 병목 어댑터의 핵심 연산 구조

표현 안정성을 통한 표 데이터 검색의 강건성 향상

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

표현 안정성을 통한 표 데이터 검색의 강건성 향상

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드