소형 로컬 모델 및 OpenRouter 모델 대상 에이전트 기반 Text-to-SQL 벤치마크 결과

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

에이전트 기반 디버깅 루프를 포함한 Text-to-SQL 벤치마크를 통해 Qwen 3.5와 NVIDIA Nemotron 등 소형 모델의 실전 SQL 생성 능력을 측정했다.

배경

작성자는 소형 로컬 모델들의 성능을 객관적으로 비교하기 위해 에이전트 기반의 Text-to-SQL 벤치마크 도구를 개발하고 주요 모델들의 테스트 결과를 공유했다.

의미 / 영향

소형 모델도 에이전트 기반의 자기 수정 루프를 결합하면 복잡한 SQL 생성 업무를 충분히 수행할 수 있음이 확인됐다. 이는 고가의 대형 모델을 사용하지 않고도 로컬 환경에서 효율적인 데이터 분석 에이전트를 구축할 수 있는 가능성을 시사한다.

커뮤니티 반응

작성자가 공개한 벤치마크 도구와 결과에 대해 긍정적인 반응이 많으며, 특히 소형 모델들의 의외의 선전에 주목하는 분위기이다.

주요 논점

01찬성다수

에이전트 기반의 디버깅 루프를 포함한 벤치마크 방식이 실제 LLM 활용 능력을 더 정확하게 반영한다.

합의점 vs 논쟁점

합의점

Qwen 3.5 계열 모델들이 현재 소형 오픈 소스 모델 중 SQL 작업에서 최상위권 성능을 보여준다.
벤치마크 실행 속도가 빨라 다양한 설정값을 테스트하기에 용이하다.

논쟁점

25개의 문항이 모델의 전체적인 능력을 대변하기에는 다소 부족할 수 있다는 의견이 존재한다.

실용적 조언

SQL 생성 작업에 소형 모델을 사용할 경우, 반드시 실행 결과 피드백을 통한 디버깅 루프를 워크플로우에 포함하여 정확도를 보완해야 한다.
NVIDIA Nemotron-Cascade-2-30B-A3B는 특정 SQL 작업에서 Qwen보다 나은 대안이 될 수 있으므로 비교 검토가 필요하다.

섹션별 상세

에이전트 기반의 Text-to-SQL 워크플로우를 구축하여 모델의 성능을 측정했다. 자연어 쿼리를 SQL로 변환한 후 실제 데이터베이스에서 실행하고, 에이전트가 그 결과를 바탕으로 제한된 횟수 내에서 스스로 쿼리를 수정하는 디버깅 과정을 포함했다. 단순 생성 방식보다 실제 업무 환경에 가까운 성능 지표를 도출하는 데 중점을 두었다.

오픈 소스 모델 중 Qwen 3.5 27B와 397B-A17B, kimi-k2.5가 가장 우수한 성적을 거두었다. 특히 NVIDIA Nemotron-Cascade-2-30B-A3B 모델은 Qwen 3.5-35B-A3B를 능가하며 Codex 5.3과 대등한 수준의 정확도를 보여주었다. Mimo v2 Flash 모델 또한 효율성 측면에서 매우 뛰어난 성능을 보였다.

다양한 LLM 모델들의 SQL 벤치마크 테스트 통과 여부를 나타내는 히트맵 결과표이다. — Chart각 행은 테스트된 모델을, 각 열은 25개의 개별 테스트 케이스를 나타내며 초록색은 성공, 빨간색은 실패를 의미한다. 상단에 위치한 Qwen 3.5 및 NVIDIA Nemotron 모델들이 대부분의 케이스를 통과하며 우수한 성능을 보이고 있음을 시각적으로 확인할 수 있다.

Llama.cpp의 WASM 버전을 활용하여 사용자가 자신의 브라우저에서 직접 벤치마크를 실행할 수 있는 환경을 제공했다. 총 25개의 질문으로 구성된 테스트는 대부분의 모델에서 5분 이내에 완료될 만큼 신속하게 설계되었으며, 모델 간의 변별력을 확보할 수 있는 난이도로 구성되었다.

실무 Takeaway

Qwen 3.5 27B 모델은 소형 모델임에도 불구하고 SQL 생성 및 디버깅 작업에서 대형 모델에 필적하는 강력한 성능을 입증했다.
에이전트가 실행 결과를 확인하고 스스로 코드를 수정하는 디버깅 루프가 최종 SQL 정확도를 높이는 핵심 요소임이 확인됐다.
Llama.cpp WASM 구현을 통해 별도의 서버 인프라 없이도 브라우저에서 로컬 모델의 성능을 즉시 벤치마킹할 수 있다.

언급된 도구

Llama.cpp추천

WASM 버전을 통한 브라우저 내 로컬 모델 추론 및 벤치마크 실행

OpenRouter중립

다양한 외부 LLM 모델 API 접근 및 테스트

언급된 리소스

DemoAgentic SQL Benchmark