LangChain조회 1회

에이전트 평가의 새로운 표준: Harbor와 LangSmith를 활용한 Deep Agent 테스트 가이드

격리된 샌드박스 환경에서 Deep Agent를 실행하고 LangSmith로 결과를 분석하는 Harbor 프레임워크 기반의 차세대 에이전트 평가 방법을 소개한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

에이전트가 컴퓨터 환경과 직접 상호작용하며 복잡한 작업을 수행함에 따라, 단순 텍스트 기반 평가 방식은 한계에 도달했다. Harbor는 에이전트가 파일 읽기, 스크립트 실행 등을 수행할 수 있는 격리된 샌드박스 환경을 제공하여 재현 가능한 평가를 가능하게 하는 오픈소스 프레임워크이다. Deep Agent와 같은 상태 유지형 에이전트를 Harbor의 독립적인 컨테이너 환경에서 실행하고, 최종 환경 상태를 결정론적으로 체크함으로써 평가의 정확도를 높일 수 있다. 이 모든 과정은 LangSmith와 통합되어 에이전트의 추론 과정과 실험 결과를 대시보드에서 시각적으로 추적하고 관리할 수 있는 워크플로를 완성한다.

챕터별 상세

0:00

에이전트 평가 방식의 변화 필요성

에이전트가 단순한 텍스트 응답을 넘어 컴퓨터 시스템과 상호작용하는 능력을 갖추면서 기존의 문자열 기반 평가는 한계에 부딪혔다. 에이전트가 파일을 읽고, 스크립트를 실행하며, 코드를 작성하는 복잡한 작업을 수행하기 때문에 이를 검증할 새로운 체계가 요구된다. 특히 장시간 실행되는 에이전트의 경우 각 단계의 상태 변화를 추적하는 것이 필수적이다. Harbor는 이러한 요구를 충족하기 위해 등장한 에이전트 전용 평가 프레임워크이다.

0:32

출력값 중심에서 실제 환경 중심으로의 전환

과거에는 LLM의 답변이 정답지와 얼마나 유사한지를 비교하는 방식이 주를 이루었으나, 이제는 에이전트가 환경에 미친 실제 영향을 확인해야 한다. 에이전트가 특정 파일을 생성했는지, 데이터베이스를 올바르게 수정했는지 등 환경의 최종 상태를 기준으로 성공 여부를 판단한다. 이를 위해 각 평가 태스크마다 깨끗하고 독립적인 실행 환경을 제공하는 것이 중요하다. Harbor는 Docker 컨테이너 기술을 활용하여 이러한 격리된 샌드박스를 자동으로 생성하고 관리한다.

Docker 컨테이너는 애플리케이션과 그 실행에 필요한 모든 환경을 패키징하여 어디서나 동일하게 실행되도록 보장하는 기술이다.

1:07

Deep Agent의 정의와 특징

Deep Agent는 단순한 챗봇이 아니라 컴퓨터의 전체 권한을 가지고 파일 시스템 접근 및 쉘 명령 실행이 가능한 에이전트 유형이다. Claude Code나 Pi와 같은 최신 에이전트들이 이 범주에 속하며, 복잡한 리서치나 코딩 작업을 자율적으로 수행한다. 이러한 에이전트는 상태를 유지하며(stateful) 여러 단계에 걸쳐 작업을 진행하므로 평가 시에도 동일한 상태를 재현할 수 있는 환경이 필요하다. LangChain의 Deep Agent 라이브러리는 이러한 고성능 에이전트 구축을 지원한다.

1:40

딥 리서치 에이전트 구축 및 시연

소음 공해 데이터를 분석하는 딥 리서치 에이전트를 사례로 들어 복잡한 작업 흐름을 보여준다. 에이전트는 웹에서 데이터를 수집하고, Python 스크립트를 작성하여 분석을 수행하며, 최종적으로 시각화 리포트를 생성한다. 이 과정에서 에이전트는 수많은 도구를 호출하고 파일 시스템과 상호작용한다. 단순한 시연만으로는 이 에이전트의 신뢰성을 보장할 수 없으므로 체계적인 평가 데이터셋 구축이 뒤따라야 한다.

3:55

Harbor 프레임워크의 핵심 기능

Harbor는 에이전트 평가를 위해 설계된 오픈소스 프레임워크로, 격리된 샌드박스 환경에서 에이전트를 실행한다. 각 태스크마다 독립적인 런타임을 할당하여 병렬로 대규모 평가를 수행할 수 있는 구조를 갖췄다. 에이전트의 행동 로그를 실시간으로 캡처하고, 작업이 끝난 후 환경의 상태를 검증하는 결정론적 체크 기능을 제공한다. 이는 에이전트 개발자가 로컬 환경의 오염 걱정 없이 안전하게 테스트를 반복할 수 있게 해준다.

4:33

데이터셋 구성과 성공 조건 설정

Harbor에서 평가를 진행하기 위해서는 입력 데이터와 함께 '성공 조건(Success Criteria)'을 정의해야 한다. 예를 들어 '분석 결과 파일이 특정 경로에 존재하는가' 또는 'CSV 파일의 특정 컬럼 값이 예상 범위 내에 있는가' 등을 코드로 작성한다. Harbor는 에이전트의 실행이 종료된 후 이 조건들을 자동으로 검사하여 Pass/Fail 여부를 판정한다. 이를 통해 주관적인 판단을 배제하고 객관적인 벤치마크 지표를 산출할 수 있다.

7:57

Deep Agent와 Harbor의 기술적 통합

LangChain의 Deep Agent를 Harbor 환경에 연결하는 과정은 간단한 설정만으로 가능하다. 에이전트가 사용하는 도구들이 Harbor가 제공하는 샌드박스 내부의 리소스를 바라보도록 구성한다. Harbor CLI를 통해 에이전트와 데이터셋을 지정하여 실행하면, 백엔드에서 컨테이너가 구동되고 에이전트의 모든 활동이 기록된다. 이 통합 방식은 로컬 개발 환경과 실제 평가 환경 사이의 괴리를 최소화한다.

9:21

LangSmith를 통한 결과 분석 및 시각화

Harbor에서 실행된 모든 평가 결과는 LangSmith와 실시간으로 동기화된다. LangSmith 대시보드에서는 에이전트의 추론 단계(Trace), 도구 호출 내역, 그리고 Harbor가 판정한 성공 여부를 한눈에 확인할 수 있다. 특히 여러 번의 실험 결과를 비교하여 에이전트의 성능 개선 추이를 파악하는 데 유용하다. 관찰 가능성(Observability)과 평가(Evaluation)가 결합되어 에이전트 최적화 주기를 단축시킨다.

언급된 리소스

문서Harbor Framework Documentation

문서LangChain Deep Agents Overview

문서LangSmith Harbor Integrations

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 07. 02.수집 2026. 07. 02.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.