핵심 요약
현재 산업 현장에서 신뢰성 있는 AI 서비스를 위해 Dify나 Coze 같은 워크플로 플랫폼이 널리 쓰이지만, 복잡한 로직을 수동으로 설계하는 데 많은 비용이 듭니다. 이 논문은 자연어 지시사항을 실제 실행 가능한 시각적 워크플로로 자동 변환하는 기술의 가능성과 한계를 체계적으로 평가할 수 있는 벤치마크를 제공합니다.
왜 중요한가
현재 산업 현장에서 신뢰성 있는 AI 서비스를 위해 Dify나 Coze 같은 워크플로 플랫폼이 널리 쓰이지만, 복잡한 로직을 수동으로 설계하는 데 많은 비용이 듭니다. 이 논문은 자연어 지시사항을 실제 실행 가능한 시각적 워크플로로 자동 변환하는 기술의 가능성과 한계를 체계적으로 평가할 수 있는 벤치마크를 제공합니다.
핵심 기여
Chat2Workflow 벤치마크 구축
AIGC, 연구, 교육 등 6개 도메인에서 수집된 실제 비즈니스 워크플로를 기반으로 27개 태스크와 79개의 멀티턴 지시사항, 총 237개의 테스트 인스턴스를 포함하는 데이터셋을 구축했다.
실행 가능성 중심의 2단계 평가 프로토콜
생성된 워크플로의 형식적 적합성을 측정하는 Pass Rate와 실제 플랫폼에서 실행되어 정답을 도출하는지 검증하는 Resolve Rate라는 두 가지 핵심 지표를 도입했다.
에러 기반 에이전트 프레임워크 제안
코드 펜스 오류, JSON 디코딩 실패, 위상 정렬 위반 등 빈번한 실행 오류를 자동으로 수정하는 5회 재시도 메커니즘 기반의 에이전트 프레임워크를 통해 Resolve Rate를 최대 5.34% 개선했다.
핵심 아이디어 이해하기
기존의 AI 에이전트는 ReAct 방식처럼 자유도가 높지만 실행 과정의 통제가 어렵다는 단점이 있다. 이를 해결하기 위해 산업계에서는 노드와 엣지로 구성된 시각적 워크플로를 미리 정의해 사용하는 방식이 선호되는데, 이 워크플로 자체를 LLM이 생성하도록 만드는 것이 핵심 아이디어이다.
워크플로 생성은 단순히 텍스트를 쓰는 것이 아니라 노드 간의 데이터 흐름(Data Flow)과 제어 로직을 그래프 구조로 설계해야 하는 고난도 작업이다. LLM은 Transformer 아키텍처를 통해 문맥을 파악하는 데 능숙하지만, 복잡한 그래프의 위상 구조를 한 번에 완벽하게 생성하는 데는 한계가 있다.
이 논문은 LLM이 자연어 요구사항을 분석하여 필요한 노드를 선택하고, 각 노드의 입출력 변수를 연결하는 JSON 구조를 생성하도록 유도한다. 특히 요구사항이 변하는 멀티턴 대화 상황에서 이전 워크플로의 상태를 유지하며 수정하는 능력을 평가함으로써, 실제 개발 환경과 유사한 자동화 가능성을 탐색한다.
방법론
워크플로 생성 작업을 멀티턴 상호작용 프로세스로 정의하고, 지시사항 q와 대화 이력 H를 입력받아 Directed Acyclic Graph(DAG) 구조인 G(V, E)를 생성하도록 설계했다. 직접적인 YAML 생성이 어렵다는 점을 고려하여 <node_selection>, <design_principle>, 태그를 사용하는 Chain-of-Thought(CoT) 방식을 채택했다.
모델이 생성한 JSON 결과물은 규칙 기반 변환기를 통해 Dify 플랫폼에서 즉시 실행 가능한 YAML 파일로 변환된다. [JSON 데이터 입력 → 변환기 연산 → YAML 파일 출력] 과정을 거쳐 실제 워크플로 엔진에 배포할 수 있는 형태를 갖춘다.
에이전트 프레임워크는 실행 루프 내에서 오류를 감지하면 Auto-Repair 모듈을 호출한다. [오류 메시지 입력 → 에러 유형 분류 및 수정 프롬프트 실행 → 수정된 JSON 출력] 순서로 작동하며, 특히 변수 참조 오류나 노드 선언 누락 등을 중점적으로 교정한다.
관련 Figure

자연어 지시사항이 어떻게 노드 선택, 설계 원칙, JSON 워크플로로 변환되는지 보여준다. 생성된 결과물이 Dify나 Coze 같은 실제 플랫폼에 직접 통합될 수 있음을 시각화한다.
Chat2Workflow의 예시 태스크와 입출력 구조를 보여주는 다이어그램
주요 결과
Gemini-3-Pro-Preview가 평균 71.59%의 Resolve Rate를 기록하며 가장 우수한 성능을 보였으나, 여전히 실제 전문가 수준에는 미치지 못하는 것으로 나타났다. 오픈소스 모델 중에서는 GLM-4.7이 55.98%로 가장 높은 성능을 기록했다.
대화 라운드가 진행될수록 모든 모델의 성능이 하락하는 경향이 확인되었다. 이는 요구사항이 추가되거나 수정될 때 기존 워크플로의 일관성을 유지하며 복잡한 로직을 갱신하는 능력이 부족함을 시사한다.
제안된 에이전트 프레임워크를 적용했을 때 GPT-5.1은 4.93%, GPT-5.2는 5.34%의 Resolve Rate 향상을 달성했다. 특히 교육 도메인에서 GLM-4.6의 경우 Pass Rate와 Resolve Rate 간의 격차가 43.44%에 달해, 형식적으로는 완벽해 보여도 실제 실행 시 논리적 오류가 많음이 입증되었다.
관련 Figure

대부분의 모델에서 라운드가 진행될수록 성능이 하락하는 경향을 보여준다. 이는 요구사항이 누적되고 복잡해질수록 LLM이 워크플로의 일관성을 유지하는 데 어려움을 겪는다는 것을 증명한다.
대화 라운드 진행에 따른 모델별 Pass Rate와 Resolve Rate의 변화 그래프
기술 상세
데이터셋은 Dify와 Coze의 공식 소스 및 GitHub에서 수집된 실제 프로덕션 수준의 설정을 역공학(Reverse-engineering)하여 구축되었다. 총 20종의 고빈도 노드 타입을 선정하고 각 노드의 I/O 인터페이스를 단순화하여 LLM의 생성 복잡도를 조절했다.
평가 지표인 Pass Rate는 형식 체크, 변환 및 임포트 성공 여부, 변수 일관성, 논리적 유효성 등 4단계 파이프라인을 거쳐 계산된다. Resolve Rate는 실제 테스트 케이스를 실행하여 출력값의 정확성을 LLM(DeepSeek-V3) 기반으로 검증한다.
에이전트 프레임워크의 핵심인 Auto-Repair 모듈은 코드 펜스 오형식, JSON 디코딩 실패, 위상 정렬 위반, 노드 선택 불일치라는 네 가지 주요 오류 유형을 타겟팅하여 프롬프트 전략을 수행한다.
관련 Figure

데이터 수집부터 멀티턴 지시사항 생성, 모델 응답, YAML 변환 및 실제 플랫폼 실행을 통한 평가까지의 전 과정을 상세히 설명한다. Pass Rate와 Resolve Rate가 측정되는 지점을 명확히 보여준다.
Chat2Workflow 벤치마크의 전체 구축 및 평가 프레임워크 개요
한계점
현재 데이터셋 규모가 실제 산업 현장의 무한한 로직 변수를 모두 포괄하기에는 제한적이다. 또한 실행 가능성을 높이기 위해 노드 인터페이스를 단순화했기 때문에 실제 배포에 필요한 복잡한 파라미터 설정을 완벽히 반영하지 못할 수 있으며, 현재 20개의 노드 타입만 지원한다는 한계가 있다.
실무 활용
Dify나 Coze 같은 노코드/로우코드 AI 워크플로 플랫폼에서 사용자의 자연어 요구사항을 바탕으로 초기 워크플로 초안을 자동 생성하는 도구로 활용될 수 있다.
- Dify 플랫폼 내 워크플로 자동 생성 및 수정 어시스턴트
- 복잡한 비즈니스 로직의 시각적 다이어그램 자동화
- 멀티턴 대화를 통한 AI 에이전트 워크플로 반복 개선 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.