핵심 요약
이 논문은 시뮬레이션이 아닌 실제 온체인 금융 환경에서 3,500개 이상의 AI 에이전트가 자본을 직접 운용한 대규모 실증 사례를 다룹니다. 에이전트의 신뢰성이 모델 자체의 성능보다 프롬프트 컴파일, 정책 검증, 실행 가드와 같은 '운영 계층'의 설계에 의해 결정됨을 입증하여 실무적인 에이전트 구축 방향을 제시합니다.
왜 중요한가
이 논문은 시뮬레이션이 아닌 실제 온체인 금융 환경에서 3,500개 이상의 AI 에이전트가 자본을 직접 운용한 대규모 실증 사례를 다룹니다. 에이전트의 신뢰성이 모델 자체의 성능보다 프롬프트 컴파일, 정책 검증, 실행 가드와 같은 '운영 계층'의 설계에 의해 결정됨을 입증하여 실무적인 에이전트 구축 방향을 제시합니다.
핵심 기여
운영 계층 중심의 에이전트 아키텍처 설계
사용자의 의도를 온체인 설정으로 변환하고, 모델의 출력이 실제 거래로 이어지기 전 정책 검증 및 실행 가드를 거치도록 설계된 시스템 구조를 제안했다. 이를 통해 99.9%의 거래 정산 성공률을 달성했다.
실제 자본 환경에서의 5가지 주요 실패 모드 식별
규칙 조작(Rule fabrication), 수수료 마비(Fee paralysis), 토크노믹스 오독 등 텍스트 벤치마크에서는 발견하기 어려운 실전 실패 사례들을 정의하고 이를 해결하기 위한 개입 방법을 도출했다.
구조화된 제어 도구의 효과 입증
자유 형식의 채팅보다 슬라이더와 같은 구조화된 제어 도구가 에이전트의 행동을 더 안정적으로 제어하며, 수익성 측면에서도 4.2배 더 높은 성과를 보임을 확인했다.
핵심 아이디어 이해하기
기존의 AI 에이전트 평가는 주로 단일 프롬프트에 대한 응답이나 가상 환경에서의 작업 완료율에 집중해 왔다. 하지만 실제 자본이 투입되는 금융 환경에서는 수수료, 시장 피드백, 되돌릴 수 없는 정산 과정이 존재하며, 모델의 단순한 지시 이행 능력만으로는 자산 손실을 막기 어렵다. Transformer 기반 모델은 프롬프트 내 문장의 순서나 숫자의 표현 방식에 민감하게 반응하여 논리적으로는 맞지만 경제적으로는 손해인 결정을 내릴 수 있기 때문이다.
이 논문은 모델을 감싸는 '운영 계층(Operating Layer)'이 신뢰성의 핵심이라고 본다. 예를 들어, 수수료 정보를 프롬프트의 앞부분에 배치하는 것만으로도 에이전트의 과도한 거래를 억제할 수 있으며, 숫자를 절대적인 규칙이 아닌 상대적인 가이드로 전달함으로써 모델이 특정 수치에 매몰되는 '수치 경화(Number hardening)' 현상을 방지한다.
결과적으로 에이전트의 신뢰성은 모델 가중치 내부가 아니라, 사용자의 의도를 모델이 이해할 수 있는 맥락으로 컴파일하고 모델의 출력을 안전한 실행 코드로 변환하는 외부 시스템의 설계에서 비롯된다. 이는 대규모 언어 모델이 가진 고유의 취약성을 시스템 공학적 접근으로 보완할 수 있음을 의미한다.
방법론
DX Terminal Pro 시스템은 사용자의 온체인 설정(슬라이더, 전략 텍스트)을 읽어와 에이전트별 모델 컨텍스트로 컴파일한다. 이 과정에서 프롬프트 컴파일러는 고정된 시스템 프롬프트와 동적인 시장 데이터, 포트폴리오 상태, 최근 메모리를 결합하여 모델에 전달한다.
모델이 도구 호출(buy, sell, observe)을 생성하면, 오프체인 정책 계층에서 유효성을 검사한다. [모델 출력값 → 잔고 및 슬리피지 한도 체크 → 유효 여부 판별] 과정을 거쳐, 정책을 위반하거나 형식이 잘못된 출력은 실제 트랜잭션 제출 전에 차단한다. 이는 모델이 체인에 직접 접근하는 것을 방지하는 최소 권한 원칙을 따른다.
학습 및 개선을 위해 '인스트럭션-투-세틀먼트(Instruction-to-settlement)' 트레이스를 보존한다. [사용자 의도 → 컴파일된 프롬프트 → 모델 추론 및 사고 과정 → 도구 호출 → 검증 결과 → 온체인 결과]를 연결하여, 실패가 발생했을 때 그것이 모델의 혼동인지, 프롬프트 순서의 문제인지, 아니면 잘못된 사용자 설정인지를 명확히 구분하고 수정할 수 있게 한다.
관련 Figure

사용자가 자연어 대신 구조화된 파라미터를 통해 에이전트의 행동 편향을 설정하는 방식을 보여준다. 이러한 구조적 제어가 에이전트의 행동을 더 예측 가능하게 만들고 수익성 향상에 기여했음을 증명하는 근거가 된다.
에이전트의 거래 빈도, 위험 선호도, 거래 규모 등을 설정할 수 있는 슬라이더 기반의 사용자 인터페이스 화면이다.
주요 결과
21일간의 배포 기간 동안 3,505개의 에이전트가 약 2,000만 달러의 거래량을 기록했으며, 정책을 통과한 트랜잭션의 99.9%가 성공적으로 정산되었다. 운영 계층의 개입을 통해 규칙 조작 발생률을 57%에서 3%로 낮추었으며, 수수료로 인한 거래 마비 관찰 사례를 32.5%에서 10% 미만으로 감소시켰다.
모델 성능 비교 실험에서 Claude 4.6 모델에 DX Terminal Pro 스타일의 하네스(Harness) 최적화를 적용했을 때, 성공적인 트랜잭션 생성률이 96%에서 99.9%로 향상되었다. 이는 모델 자체의 업그레이드보다 운영 계층의 최적화가 신뢰도 격차를 메우는 데 더 결정적인 역할을 할 수 있음을 보여준다.
사용자 인터페이스 분석 결과, 슬라이더와 구체적인 종료 조건을 설정한 그룹이 단순한 수익 창출을 요구한 그룹보다 수익을 낼 확률이 4.2배 높았다. 또한 Qwen3-235B 모델을 사용한 환경에서 중국어 기반 전략을 사용한 에이전트들이 영어 기반 에이전트보다 상대적으로 높은 수익성을 보였는데, 이는 모델의 언어별 이해도 차이가 에이전트 행동에 직접적인 영향을 미침을 시사한다.
관련 Figure

Claude 4.6 모델 단독으로는 96%의 성공률을 보였으나, 본 논문에서 제안한 운영 계층(하네스) 최적화를 적용했을 때 99.9%까지 성능이 향상됨을 보여준다. 이는 신뢰성 확보에 있어 시스템 설계의 중요성을 수치로 입증한다.
모델 버전 및 하네스 적용 여부에 따른 EVM 스왑 실행 성공률 비교 차트이다.
기술 상세
시스템 아키텍처는 Qwen/Qwen3-235B-A22B-Thinking-2507 모델을 기반으로 하며, SGLang 프레임워크를 통해 서빙된다. 에이전트는 시간당 약 12~15회 폴링되며, 각 호출마다 '사고 모드(Thinking-mode)'를 통해 추론 과정을 거친 후 단일 도구 호출을 생성한다.
프롬프트 엔지니어링 측면에서 '순서 민감도'를 해결하기 위해 스킵 게이트(Skip gates)와 템플릿 조건문을 도입했다. 특히 수수료 정보나 고순위 전략이 프롬프트 내에서 차지하는 위치에 따라 모델의 가중치 부여가 달라지는 현상을 제어하기 위해 구조화된 컨텍스트 주입 방식을 사용했다.
메모리 설계에서는 일반적인 RAG 방식의 개방형 메모리 대신, 포트폴리오 상태와 최근 거래 이력 등 구조화되고 최신화된 상태 정보를 우선적으로 제공하여 환각(Hallucination) 위험을 최소화했다. 이는 장기 문맥에서 관련 없는 정보가 모델의 판단을 흐리는 현상을 방지하기 위함이다.
한계점
본 연구는 단일 시장 구조와 특정 모델군(Qwen), 21일이라는 제한된 기간 내에서 수행된 결과이다. 또한 2.3%라는 이례적으로 높은 거래 수수료 환경에서 얻어진 데이터이므로, 일반적인 저수수료 금융 시장으로의 일반화에는 주의가 필요하다.
실무 활용
실제 자산이나 권한을 다루는 AI 에이전트 시스템 설계 시, 모델 성능에만 의존하지 말고 강력한 운영 및 검증 계층을 구축해야 함을 시사한다.
- 온체인 자산 관리 및 자동 거래 에이전트의 안전 가드레일 설계
- 기업용 AI 에이전트의 권한 관리 및 실행 정책 검증 시스템 구축
- 에이전트의 의사결정 과정을 추적하고 디버깅하기 위한 관측성(Observability) 프레임워크 도입
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.