CartLens 개발 과정에서의 영수증 데이터 구조화 추출 프롬프트 최적화 경험

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

영수증 데이터 추출 시 모델의 임의 추론을 금지하고 필드별 명확한 형식을 지정하여 데이터 정확도를 개선한 사례이다.

AI 쇼핑 도우미인 CartLens 개발자가 영수증에서 상품 정보를 정확하게 추출하기 위해 프롬프트를 여러 차례 수정한 결과와 교훈을 공유했다.

LLM을 활용한 데이터 추출 실무에서 가장 큰 장애물인 할루시네이션을 제어하기 위해서는 모델의 지능에 의존하기보다 엄격한 제약 조건을 프롬프트에 명시하는 것이 효과적임이 확인됐다.

작성자가 구조화된 추출 파이프라인을 구축 중인 다른 개발자들과 의견을 나누고자 하며 실무적인 프롬프트 팁을 제공했다.

01찬성다수

모델의 추론을 제한하고 엄격한 형식을 지정하는 것이 데이터 추출 품질을 결정한다.

단순한 전체 추출 지시문은 일관성 없는 JSON 구조와 항목 누락을 초래했다. '영수증의 모든 항목을 추출하라'는 포괄적인 명령만으로는 모델이 데이터의 경계를 명확히 구분하지 못해 결과값이 불안정하게 출력됐다.

모든 정보를 한 번에 요청하는 방식은 모델이 합계 금액을 개별 품목으로 오인하는 할루시네이션을 유발했다. 이를 해결하기 위해 각 항목을 JSON 배열로 추출하도록 구조를 정의하고 이름, 수량, 단가, 총액, 단위 타입을 개별 필드로 분리했다.

누락된 필드에 대해 '추론하거나 계산하지 말 것'이라는 지시를 추가한 것이 성능 향상의 핵심이었다. 모델이 빈틈을 그럴듯한 오답으로 채우는 것을 방지하기 위해 정보가 없을 경우 null을 반환하도록 명시하여 데이터 신뢰도를 확보했다.

해석을 배제하고 출력된 그대로의 텍스트를 가져오도록 지시하여 데이터의 원본성을 유지했다. 상품명에 대한 자의적 해석을 금지하고 숫자 데이터는 수치형으로만 받도록 강제하여 후속 데이터 처리가 용이하도록 설계했다.

CartLens추천

AI 기반 쇼핑 도우미 서비스