이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
LangSmith는 이제 base64 이미지와 첨부 파일을 평가기에 직접 매핑할 수 있는 기능을 지원한다. 이를 통해 실제 운영 환경에서 발생하는 복잡한 멀티모달 상호작용의 품질과 안전성을 효과적으로 검증할 수 있다.
배경
AI 에이전트가 텍스트뿐만 아니라 이미지, PDF, 음성 등 다양한 형태의 데이터를 처리하게 되면서 이를 평가하기 위한 도구의 필요성이 커졌다.
대상 독자
AI 에이전트 개발자, MLOps 엔지니어, LLM 애플리케이션 기획자
의미 / 영향
LangSmith의 멀티모달 지원으로 인해 복잡한 시각 및 청각 데이터를 다루는 에이전트의 신뢰성을 확보하기가 훨씬 쉬워졌다. 개발자는 이제 수동 검토 없이도 대규모 멀티모달 데이터셋에 대한 벤치마킹과 실시간 품질 관리를 자동화할 수 있다.
챕터별 상세
00:00
멀티모달 평가의 필요성과 LangSmith의 지원 범위
현대의 AI 에이전트 상호작용은 더 이상 텍스트에 국한되지 않고 PDF 업로드, 음성 메시지, 스크린샷 공유 등을 포함한다. 에이전트 역시 이미지나 차트 같은 멀티모달 출력을 생성하므로 텍스트만 평가해서는 전체 시스템의 품질을 파악하기 어렵다. LangSmith는 이러한 흐름에 맞춰 이미지 품질, 사용자 톤, 오디오 품질 등 멀티모달 구성 요소를 평가할 수 있는 기능을 도입했다.
- •에이전트 상호작용의 멀티모달화에 따른 평가 복잡성 증가
- •이미지, 음성, 파일 등 다양한 데이터 타입에 대한 평가 지원
- •품질 및 안전성 신호 감지를 위한 멀티모달 평가기 중요성
01:06
Base64 멀티모달 콘텐츠를 평가기에 매핑하기
사용자가 업로드한 이미지가 제품 생태계와 관련이 있는지 확인하는 '이미지 관련성(Image Relevancy)' 평가기 설정 과정을 보여준다. 필터를 적용해 이미지 입력이 있는 트레이스(Trace)만 선택하고 멀티모달 입력을 처리할 수 있는 저비용 모델인 GPT-4o mini를 평가 모델로 지정한다. 프롬프트 내에서 input.messages를 매핑하면 내부적으로 base64 형식의 이미지가 평가기에 전달되어 분석이 수행된다.
- •이미지 관련성 평가를 위한 필터링 및 모델 설정 방법
- •base64 형식의 이미지 데이터를 평가 프롬프트에 직접 매핑하는 워크플로
- •LLM-as-a-judge 방식을 통한 자동화된 이미지 검증 구현
02:39
멀티모달 첨부 파일을 평가기에 활용하는 방법
트레이스에 포함된 첨부 파일이나 오프라인 데이터셋의 파일을 평가기에 전달하는 방법을 설명한다. 영수증 이미지에서 정보를 추출하는 에이전트의 정확성을 평가하기 위해 attachments 변수를 사용한다. 특정 이름의 첨부 파일만 선택하거나 전체 첨부 파일을 일괄 매핑할 수 있는 유연한 옵션을 제공한다. 플레이그라운드에서 실행 시 평가기가 텍스트 출력뿐만 아니라 첨부된 원본 파일까지 고려하여 정확도 점수를 산출한다.
- •PDF 및 이미지 첨부 파일의 유연한 매핑 옵션 지원
- •데이터셋 기반의 오프라인 평가 워크플로와 통합 방법
- •첨부 파일 원본 데이터를 참조한 정밀한 성능 측정 결과 확인
실무 Takeaway
- 이미지 입력이 포함된 트레이스만 필터링하여 특정 평가기를 실행함으로써 평가 비용을 최적화하고 효율적인 모니터링 파이프라인을 구축할 수 있다.
- 프롬프트 내에서 attachments 변수를 매핑하여 PDF나 영수증 이미지 같은 비정형 데이터로부터의 정보 추출 정확도를 자동화된 방식으로 검증할 수 있다.
- 멀티모달 데이터를 지원하는 경량 모델을 평가기로 활용하여 실시간 운영 환경에서도 낮은 지연시간으로 멀티모달 상호작용을 평가할 수 있다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 03. 10.수집 2026. 03. 10.출처 타입 YOUTUBE
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.