Remote가 LangChain과 LangGraph로 구축한 데이터 마이그레이션용 코드 실행 에이전트

핵심 요약

글로벌 고용 플랫폼 Remote는 수천 개의 스프레드시트와 대규모 SQL 데이터를 자사 스키마로 마이그레이션하는 과정에서 발생하는 수동 작업의 한계를 해결하기 위해 '코드 실행 에이전트(Code Execution Agent)'를 개발했다. 이 시스템은 LLM이 직접 데이터를 처리하는 대신, LangChain의 도구 호출 기능을 통해 Python 코드를 생성하고 이를 WebAssembly 기반의 안전한 샌드박스에서 실행하는 방식을 채택했다. 이를 통해 LLM의 컨텍스트 창 제한과 환각(Hallucination) 문제를 극복하고 데이터 처리의 정확성과 보안을 확보했다. 결과적으로 며칠이 소요되던 마이그레이션 작업을 단 몇 시간으로 단축하며 운영 효율성을 크게 개선했다.

배경

LLM 에이전트 개념, Python/Pandas 기초, LangChain/LangGraph 기본 지식

대상 독자

LLM 기반 데이터 처리 파이프라인을 구축하려는 엔지니어 및 AI 에이전트 개발자

의미 / 영향

이 사례는 LLM의 한계인 컨텍스트 윈도우와 환각 문제를 '코드 실행'이라는 외부 도구 결합으로 해결하는 실질적인 패턴을 제시한다. 특히 보안이 중요한 기업 환경에서 샌드박스 기반의 코드 실행 에이전트가 데이터 마이그레이션과 같은 복잡한 비즈니스 프로세스를 어떻게 자동화할 수 있는지 보여주는 이정표가 된다.

섹션별 상세

LLM의 컨텍스트 창 제한과 데이터 처리 중 발생하는 환각 문제를 해결하기 위해 '추론'과 '실행'을 분리하는 아키텍처를 설계했다. 50MB 이상의 엑셀 파일이나 대규모 SQL 데이터를 LLM에 직접 입력하면 비용이 급증하고 환각이 발생할 위험이 크기 때문에, LLM은 작업 계획과 코드 생성만 담당하고 실제 데이터 변환은 외부 Python 환경에서 수행하도록 구성했다.

LangChain의 도구 호출(Tool-calling) 인터페이스를 활용하여 에이전트가 고객의 원본 데이터를 분석하고 Remote의 온보딩 스키마로 변환하기 위한 최적의 단계를 결정하도록 했다. 에이전트는 Pandas와 같은 강력한 데이터 분석 라이브러리를 사용하는 Python 코드를 작성하며, 이 코드는 WebAssembly 기반의 격리된 샌드박스에서 안전하게 실행되어 보안을 유지한다.

복잡한 마이그레이션 워크플로우를 관리하기 위해 LangGraph의 노드 및 에지(Node-and-Edge) 모델을 도입하여 전체 과정을 유향 그래프(Directed Graph)로 시각화하고 제어했다. 데이터 수집, 매핑, 실행, 검증의 각 단계를 노드로 정의함으로써 성공, 실패, 재시도 등의 상태 전이를 명확하게 관리하고 시스템의 투명성과 복구 가능성을 높였다.

중간 데이터 처리 결과를 LLM의 컨텍스트 창에 다시 넣지 않고 실행 환경 내에 유지함으로써 토큰 사용량을 획기적으로 절감했다. 에이전트는 전체 데이터셋을 읽는 대신 데이터 과학 노트북의 패턴을 빌려 '상위 N개 행 표시'와 같은 방식으로 요약된 정보만 확인하며 작업을 수행하여 효율성을 극대화했다.

실무 Takeaway

LLM을 데이터 처리기가 아닌 '플래너'로 활용하고, 무거운 데이터 연산은 Python/Pandas와 같은 결정론적 도구에 위임하여 정확도를 확보해야 한다.
에이전트 워크플로우를 LangGraph와 같은 그래프 구조로 설계하면 디버깅이 용이해지고 복잡한 다단계 작업을 안정적으로 오케스트레이션할 수 있다.
대용량 파일 처리 시 중간 결과물을 LLM 컨텍스트 외부에 유지하고 요약된 정보만 교환함으로써 토큰 비용 절감과 성능 향상을 동시에 달성할 수 있다.

언급된 리소스

GitHubRemote AI Agent Toolkit