TRUST-SQL: 미지 스키마 환경에서의 Text-to-SQL을 위한 도구 통합 다회차 강화학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 Text-to-SQL 연구는 데이터베이스의 모든 구조를 모델에게 미리 알려준다는 비현실적인 가정을 전제로 한다. 하지만 실제 기업 환경에서는 수백 개의 테이블이 존재하여 이를 모두 입력창에 넣는 것이 불가능하며, TRUST-SQL은 모델이 스스로 필요한 정보를 탐색하고 검증하는 자율적 방식을 통해 이 문제를 해결한다. 이는 대규모 데이터베이스를 보유한 기업들이 AI를 실무에 도입할 때 겪는 가장 큰 기술적 장벽 중 하나를 제거하는 성과이다.

왜 중요한가

핵심 기여

Unknown Schema 설정 공식화

데이터베이스 구조를 사전에 알 수 없는 현실적인 시나리오를 POMDP(Partially Observable Markov Decision Process)로 정의하고, 에이전트가 능동적으로 메타데이터를 탐색해야 하는 환경을 구축했다.

4단계 상호작용 프로토콜 도입

Explore(탐색), Propose(제안), Generate(생성), Confirm(확인)으로 구성된 엄격한 단계를 통해 모델이 환각(Hallucination)을 일으키지 않고 검증된 메타데이터에만 기반하여 추론하도록 강제했다.

Dual-Track GRPO 학습 전략

탐색 보상과 실행 보상을 분리하고 토큰 레벨 마스킹을 적용한 새로운 강화학습 전략을 통해, 긴 상호작용 과정에서 발생하는 신뢰 할당(Credit Assignment) 문제를 해결하고 성능을 9.9% 향상시켰다.

SFT 기반 콜드 스타트 방지

강화학습 전 SFT 웜업 단계를 통해 모델이 무분별하게 모든 테이블을 조회하여 보상을 얻으려는 '보상 해킹'을 방지하고, 구조화된 탐색 행동을 사전에 내재화시켰다.

핵심 아이디어 이해하기

기존의 Text-to-SQL 모델은 시험을 볼 때 모든 참고 자료를 옆에 쌓아두고 문제를 푸는 것과 같다. 하지만 실제 현장은 참고 자료가 너무 방대해 책상 위에 다 올릴 수 없는 상황이다. TRUST-SQL은 모델에게 '도서관(데이터베이스) 이용권'을 주고 필요한 자료를 직접 찾아오게 만드는 방식을 택했다.

이 과정에서 핵심은 'Propose'라는 인지적 체크포인트이다. 모델은 단순히 SQL을 생성하기 전에 자신이 찾은 정보가 맞는지 확정해야 하며, 이는 딥러닝 모델이 내부 파라미터에 저장된 잘못된 지식(Parametric Priors)에 의존해 존재하지 않는 테이블 이름을 지어내는 환각 현상을 억제하는 닻 역할을 한다.

또한, 'Dual-Track GRPO'는 모델의 행동을 '자료 찾기'와 '문제 풀기' 두 트랙으로 나누어 평가한다. 기존 강화학습은 최종 답이 틀리면 자료를 잘 찾았더라도 전체 과정을 실패로 간주해 학습 효율이 낮았다. TRUST-SQL은 각 단계의 성과를 독립적으로 계산하여, 자료를 정확히 찾은 행동에는 확실한 보상을 주어 탐색 능력을 정교하게 발달시킨다.

방법론

TRUST-SQL은 Text-to-SQL 작업을 순차적 의사결정 과정으로 접근한다. 에이전트는 Explore(메타데이터 조회), Propose(스키마 확정), Generate(SQL 생성), Confirm(최종 제출)의 4단계 프로토콜을 준수해야 한다. 특히 Propose 단계는 모델이 검증된 스키마 지식 $K_t$ 에 커밋하도록 강제하여 이후 생성 단계에서 환각을 방지하는 구조적 경계선 역할을 한다.

학습을 위해 Dual-Track GRPO 전략을 사용한다. 하나의 Trajectory를 Schema Track( $au_{schema}$ )과 Full Track( $au_{full}$ )으로 분리하여 독립적인 보상을 부여한다. Schema Track은 Propose 단계까지의 탐색 품질을 평가하고, Full Track은 최종 SQL의 실행 정확도와 프로토콜 준수 여부를 평가한다.

수학적으로는 토큰 레벨 마스킹 어드밴티지(Token-level Masked Advantage)를 적용한다. $A^i_k = (R^i_k - ext{mean}(R_k)) / ext{std}(R_k)$ [그룹 내 상대적 보상에서 평균을 빼고 표준편차로 나눈 값]을 계산한 뒤, 이를 특정 트랙에 속한 토큰들에만 방송(Broadcast)한다. 이 연산을 통해 탐색 단계의 토큰은 탐색 보상에 의해서만 업데이트되고, 생성 단계의 토큰은 실행 보상에 의해서만 업데이트되어 학습 신호의 혼선이 방지된다.

주요 결과

BIRD-Dev 벤치마크에서 TRUST-SQL은 Qwen3-4B 모델 기준 30.6%, 8B 모델 기준 16.6%의 절대적인 실행 정확도 향상을 기록했다. 특히 스키마 정보를 미리 주입받은(Prefill) 강력한 베이스라인 모델들과 비교했을 때도 대등하거나 오히려 능가하는 성능을 보였으며, 이는 자율 탐색만으로도 충분한 정보 획득이 가능함을 입증한다.

Ablation Study 결과, Dual-Track 전략을 사용하지 않고 보상을 단순 합산했을 때보다 실행 정확도가 상대적으로 9.9% 향상되었다. 또한 Propose 단계를 도입했을 때 환각 오류가 26.4%에서 2.8%로 약 9.4배 감소하는 극적인 효과가 나타났다.

Spider-DK, Spider-Syn, Spider-Realistic 등 다양한 변형 벤치마크에서도 일관되게 1위를 차지했다. 이는 TRUST-SQL이 단순히 스키마 구조를 외우는 것이 아니라, 모호한 질문이나 동의어가 포함된 복잡한 시나리오에서도 능동적인 탐색을 통해 정확한 매핑을 수행할 수 있음을 의미한다.

기술 상세

TRUST-SQL의 아키텍처는 POMDP 프레임워크를 기반으로 하며, 상태 $s_t$ 는 숨겨진 전체 데이터베이스 스키마, 관측 $o_t$ 는 도구 실행 결과로 정의된다. 에이전트는 내부 컨텍스트 $c_t = (q, h_t, K_t)$ 를 유지하며, 여기서 $K_t$ 는 명시적으로 검증된 메타데이터만 저장하는 지식 저장소이다.

Dual-Track GRPO는 신뢰 할당 문제를 해결하기 위해 도입되었다. 긴 상호작용 경로에서 특정 토큰이 최종 성공에 기여했는지 판단하기 어렵기 때문에, Propose 단계를 기점으로 경로를 분할한다. Schema Reward $R_{schema}$ 는 제안된 스키마와 정답 스키마의 구조적 겹침(Structural Overlap)을 측정하며, Execution Reward $R_{exec}$ 는 SQL 실행 결과의 일치 여부를 1.0, 0.2, 0.0점으로 차등 부여한다.

학습은 2단계로 진행된다. 먼저 GPT-4.1-mini, DeepSeek-R1 등을 활용해 생성한 고품질 탐색 경로 데이터셋으로 SFT(Supervised Fine-tuning) 웜업을 수행한다. 이후 Dual-Track GRPO를 통해 정책을 최적화한다. 실험 결과, 10턴의 학습 예산과 15턴의 추론 예산을 조합했을 때 가장 효율적인 탐색과 정확한 결과 도출이 가능함이 확인되었다.

한계점

다회차 상호작용으로 인해 단일 회차 방식보다 추론 지연 시간(Latency)과 비용이 발생한다. 또한 현재 실험은 SQLite 방언에 국한되어 있어 PostgreSQL이나 MySQL 등 다른 SQL 방언으로의 확장이 필요하다. 고정된 최대 턴 수 제한으로 인해 극도로 복잡한 스키마에서는 탐색이 불충분할 수 있다.

실무 활용

TRUST-SQL은 수백 개의 테이블이 존재하는 대규모 기업용 데이터베이스 환경에서 자연어 인터페이스를 구축하는 데 즉시 활용 가능하다. 모델이 스키마 전체를 기억할 필요 없이 동적으로 필요한 정보를 조회하므로, 데이터베이스 구조가 자주 변경되거나 보안상 전체 스키마 노출이 어려운 환경에 적합하다.

수천 개의 테이블을 보유한 대기업 사내 데이터 분석 챗봇 구축
스키마가 수시로 업데이트되는 동적 서비스의 자연어 데이터 조회 인터페이스
복잡한 데이터 카탈로그에서 필요한 테이블과 컬럼을 자동으로 찾아주는 탐색 도구
LLM의 컨텍스트 윈도우 한계를 극복해야 하는 대규모 DB 연동 에이전트

코드 공개 여부: 공개

코드 저장소 보기

키워드

Text-to-SQL(텍스트-SQL 변환)POMDP(부분 관측 마르코프 결정 과정)GRPO(그룹 상대 정책 최적화)Autonomous Agent(자율 에이전트)Schema Grounding(스키마 접지)Credit Assignment(신뢰 할당)