LangSmith의 AI 어시스턴트 'Polly' 정식 출시: LLM 에이전트 디버깅 및 평가 자동화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM 에이전트 개발 시 발생하는 복잡한 트레이스와 방대한 프롬프트 분석의 어려움을 해결하기 위해 LangChain이 AI 어시스턴트 'Polly'를 정식 출시했다. Polly는 LangSmith의 모든 페이지에서 상시 접근 가능하며, 사용자의 작업 맥락을 유지한 채 디버깅, 데이터셋 생성, 평가기 코드 작성 등의 실질적인 작업을 수행한다. 특히 수백 단계의 실행 과정을 분석하여 실패 원인을 파악하거나 여러 실험 결과를 비교하여 최적의 모델을 추천하는 등 개발자의 의사결정을 돕는 강력한 기능을 제공한다.

배경

LangSmith 계정 및 트레이싱 설정, LLM 모델 제공업체의 API 키 (작업 공간 비밀로 설정 필요)

대상 독자

LLM 애플리케이션 및 에이전트를 프로덕션 환경에서 개발하고 운영하는 엔지니어

의미 / 영향

LLM 개발의 고질적 문제인 관측 가능성과 평가의 난이도를 AI 어시스턴트를 통해 획기적으로 낮췄다. 이는 개발자가 로우 레벨 로그 분석에 쏟는 시간을 줄이고 고수준의 아키텍처 설계와 성능 최적화에 집중할 수 있는 환경을 조성한다.

섹션별 상세

Polly는 이제 LangSmith의 모든 워크플로에서 하단 오른쪽 아이콘을 통해 상시 접근 가능하며, 페이지 이동 시에도 이전 대화 맥락을 유지하여 작업 흐름의 단절을 방지한다.

단순한 질의응답을 넘어 프롬프트 업데이트, 실패한 실행 기반의 데이터셋 생성, 프로젝트 뷰 필터링, 평가기 코드 작성 등 개발자가 직접 수행하던 액션을 자동화한다.

복잡한 대화 스레드 분석 기능을 통해 사용자의 불만 여부, 문제 해결 상태, 주요 대화 주제 등을 파악하여 에이전트의 성능과 사용자 경험을 정량적으로 진단한다.

Polly가 대화 스레드 내에서 사용자의 감정 상태와 문제 해결 여부를 분석하는 화면이다. — Screenshot사용자가 Ollama 설정 관련 질문을 하는 과정에서 보인 태도(인내심, 호기심, 참여도)를 분석하여 사용자가 좌절하지 않았음을 확인해준다. 이는 개발자가 수동으로 대화 로그를 읽지 않고도 사용자 경험을 빠르게 파악할 수 있음을 보여준다.

평가기(Evaluator) 작성 및 개선 기능을 지원하여 환각 체크나 엣지 케이스 처리를 위한 로직을 생성하고 개발자와 협업하여 검증 정확도를 높인다.

Polly를 사용하여 평가기(Evaluator)의 기준을 강화하고 프롬프트를 수정하는 과정이다. — Screenshot기존의 'helpfulness' 평가 기준을 더 엄격하게 수정해달라는 요청에 대해 Polly가 구체적인 루브릭 변경안과 시스템 프롬프트 수정 사항을 제안한다. 평가 로직 구현의 생산성을 높이는 과정을 시각화한다.

다양한 실험 결과를 데이터 기반으로 비교 분석하여 어떤 프롬프트나 모델 변경이 실제로 성능 향상을 이끌어냈는지에 대한 구체적인 권장 사항을 제시한다.

두 가지 실험 결과를 비교하여 최적의 모델을 추천하는 Polly의 분석 결과이다. — Screenshot정확도, 답변 관련성, 코드 체크 등 여러 지표를 바탕으로 Claude Sonnet 4.6이 가장 우수하다는 결론을 내리고 그 이유를 설명한다. 복잡한 벤치마크 데이터를 의사결정에 활용 가능한 인사이트로 변환하는 기능을 보여준다.

실무 Takeaway

복잡한 에이전트 트레이스 분석 시 Polly를 활용하면 수백 단계의 로그 중 실패 지점을 즉시 찾아내어 디버깅 시간을 단축할 수 있다.
실험 결과 비교 시 Polly에게 분석을 요청하면 수동 데이터 확인 없이도 지표 기반의 최적 모델 추천을 받을 수 있다.
평가기 로직 작성 시 Polly와 대화하며 환각 방지 등 구체적인 검증 코드를 빠르게 구현하고 반복적으로 개선할 수 있다.

언급된 리소스

API DocsPolly Documentation