Amazon Bedrock 지식 증류로 구축한 영어·일본어 화물 이메일용 NER 사례

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

IBS Software는 영어와 일본어가 혼재된 화물 운송 이메일에서 23개 엔티티를 추출하기 위해 Amazon Bedrock의 토큰 기반 지식 증류를 활용해 대형 교사 모델의 토큰 예측을 학생 모델에 전달하는 파이프라인을 설계했다. 입력으로 .eml 이메일을 프롬프트 템플릿과 JSON 변환을 거쳐 S3에 적재하고 Bedrock에서 Nova Pro로부터 Nova Lite로 증류하여 더 작고 빠른 학생 모델을 얻었다는 점이 핵심이다. 학습은 500건의 라벨링된 이메일(영어 350, 일본어 150)을 사용해 학생 모델을 4 epochs·70 스텝으로 학습시켰고 손실은 0.05에서 0.008로 줄었으며 테스트 F1은 95.085%로 보고되었다. 이 결과는 실시간 .eml 처리 파이프라인과 Bedrock 배포로 운영 지연을 낮춘 채 비용을 약 14배 절감한 실제 생산 환경 적용 사례이다.

섹션별 상세

화물 운송 이메일은 AWB, 항공편, 무게, 취급 지시 등 다수의 도메인 속성을 포함하고 영어와 일본어가 혼재되어 있어 단일 모델로 높은 정확도와 저비용을 동시에 확보하기 어려웠다. 입력으로 .eml 형식의 원시 이메일을 받아 프롬프트 템플릿으로 엔티티 추출 형식을 맞추고 JSON으로 변환한 뒤 S3에 저장하여 Bedrock의 토큰 기반 증류 파이프라인에 전달하는 방식으로 처리 파이프라인을 설계했다. 이 파이프라인은 대형 교사 모델의 토큰별 예측을 학생 모델이 모사하도록 학습시키는 구조로, 결과적으로 더 작고 빠른 모델을 얻어 실시간 추론 요구를 충족하게 한다. 다국어 문서 처리와 실시간 응답이라는 두 축의 요구를 동시에 맞추기 위해 입력 전처리와 포스트프로세싱에서 언어별 규칙을 적용했다.

엔드투엔드 파이프라인을 도식화한 플로우차트로 원시 이메일에서 Bedrock 증류를 거쳐 실시간 NER 추론까지 순서를 표현하고 있다. — Diagram이미지는 원시 .eml 이메일을 프롬프트 템플릿과 JSON 변환을 통해 Amazon S3에 적재한 뒤 Amazon Bedrock에서 토큰 기반 증류 작업을 수행하고 증류된 맞춤 모델을 Bedrock에 배포하여 실시간 NER 추론을 진행하는 전체 워크플로를 단계별로 보여준다. 각 단계는 데이터 준비·포맷 변환·저장·증류·배포·실시간 추론의 순서로 연결되어 있어 본문에서 설명한 처리 흐름과 직접적으로 대응된다.

프로젝트 실행은 데이터 수집과 주석 단계에서부터 모델 학습·증류·배포까지 약 4개월이 소요되었으며 팀은 아홉 명으로 구성되어 있었다. 구체적으로 500개의 이중언어 이메일(영어 350건, 일본어 150건)을 23개 엔티티로 주석했고 PyTorch 및 TextBrewer 같은 오픈소스 프레임워크에서의 난제를 거친 뒤 Amazon Bedrock을 통해 Nova Pro 교사 모델로부터 Nova Lite 학생 모델을 증류했다. 학습 과정은 학생 모델을 4 epochs, 총 70 스텝으로 학습시켰고 손실은 0.05에서 0.008로 감소했으며 테스트에서 95.085 퍼센트 F1을 확보해 품질을 입증했다. 이 성과는 실시간 .eml 처리 파이프라인과 Bedrock 배포를 통해 운영 환경에서 저지연으로 동작하면서 비용은 14배 절감한 것으로 보고되었다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

Amazon Bedrock 지식 증류로 구축한 영어·일본어 화물 이메일용 NER 사례

TL;DR

섹션별 상세

Amazon Bedrock 지식 증류로 구축한 영어·일본어 화물 이메일용 NER 사례

TL;DR

섹션별 상세

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드