Amazon Bedrock의 Nova 모델 증류를 통한 비디오 시맨틱 검색 의도 최적화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

비디오 시맨틱 검색 시스템에서 검색 의도를 파악하는 라우팅 레이어는 정확도가 중요하지만, 대형 모델 사용 시 높은 지연 시간과 비용이 발생한다. 본 아티클은 Amazon Bedrock의 모델 증류 기법을 사용하여 Amazon Nova Premier(교사)의 지능을 훨씬 작고 빠른 Nova Micro(학생)로 전이하는 방법을 제시한다. 10,000개의 합성 데이터를 활용해 학습한 결과, 기존 Claude Haiku 기반 시스템 대비 비용은 95% 이상 절감되었고 지연 시간은 약 50% 단축되었다. 이를 통해 대규모 비디오 검색 서비스에서 성능 저하 없이 운영 효율성을 극대화할 수 있음을 입증했다.

배경

Amazon Bedrock 기본 사용법, Python 및 Boto3 SDK 활용 능력, 시맨틱 검색 및 모달리티 가중치에 대한 기본 개념

대상 독자

대규모 비디오 검색 시스템을 구축하거나 LLM 추론 비용 및 지연 시간 최적화가 필요한 AI 엔지니어

의미 / 영향

이 사례는 특정 도메인 작업에서 거대 모델의 성능을 소형 모델로 성공적으로 전이할 수 있음을 보여주며, 이는 기업들이 고성능 AI 서비스를 훨씬 낮은 비용 구조로 운영할 수 있게 하는 중요한 전환점이 될 것이다.

섹션별 상세

비디오 검색 시스템의 의도 라우팅 단계에서 발생하는 높은 지연 시간이 전체 사용자 경험의 병목 구간으로 작용했다. 기존 Claude Haiku 모델을 사용한 라우팅은 정확하지만 전체 검색 시간의 약 75%인 2~4초를 차지하는 한계가 있었다. 이를 해결하기 위해 정확도는 유지하면서 속도와 비용을 최적화할 수 있는 모델 커스터마이징이 필요했다.

비디오 검색 시스템의 엔드투엔드 쿼리 지연 시간 분석 차트 — Chart전체 검색 과정에서 전처리(Preprocessing) 단계가 약 1,605ms를 차지하여 전체 지연 시간의 상당 부분을 점유하고 있음을 보여준다. 이는 의도 라우팅 모델의 최적화가 전체 시스템 성능 개선에 필수적임을 시각적으로 뒷받침한다.

Amazon Bedrock의 모델 증류 기능을 통해 고성능 교사 모델의 지식을 효율적인 학생 모델로 전이하는 파이프라인을 구축했다. Nova Premier를 교사 모델로, Nova Micro를 학생 모델로 설정하여 10,000개의 시각·오디오·텍스트 가중치 레이블 데이터를 학습시켰다. 이 과정은 별도의 인프라 관리나 하이퍼파라미터 튜닝 없이 Bedrock 관리형 서비스로 자동화되어 수행됐다.

python

response = bedrock_client.create_model_customization_job(
    jobName=job_name,
    customModelName=model_name,
    roleArn=distillation_role_arn,
    baseModelIdentifier=student_model,
    customizationType="DISTILLATION",
    trainingDataConfig={"s3Uri": training_s3_uri},
    outputDataConfig={"s3Uri": output_s3_uri},
    customizationConfig={
        "distillationConfig": {
            "teacherModelConfig": {
                "teacherModelIdentifier": teacher_model,
                "maxResponseLengthForInference": 1000
            }
            }
        }
    )

Amazon Bedrock에서 교사 모델(Nova Premier)과 학생 모델(Nova Micro)을 지정하여 모델 증류 학습 작업을 생성하는 코드

10,000개 학습 예제의 모달리티별 가중치 분포 히스토그램 — ChartVisual, Audio, Transcription, Metadata 등 4가지 모달리티에 대한 학습 데이터의 가중치 분포를 보여준다. 데이터가 특정 값에 치우치지 않고 고르게 분포되어 있어 모델이 다양한 검색 의도를 학습할 수 있는 양질의 데이터셋임을 입증한다.

증류된 Nova Micro 모델은 기본 모델 대비 지시 이행 능력이 비약적으로 향상되었으며 일관된 JSON 출력을 보장했다. 기본 모델은 자유 형식의 텍스트나 불완전한 JSON을 출력하는 반면, 증류 모델은 정의된 스키마에 맞춰 4개 모달리티의 가중치 합이 1.0이 되는 수치 데이터를 정확히 반환했다. 이는 복잡한 엔터프라이즈 메타데이터 라우팅 환경에서 필수적인 신뢰성을 제공한다.

성능 평가 결과 증류된 모델은 대형 모델 수준의 품질을 유지하면서도 운영 지표에서 압도적인 우위를 점했다. LLM-as-judge 평가에서 5점 만점에 4.0점을 기록하여 Claude Haiku와 대등한 품질을 보였으나, 평균 지연 시간은 1,741ms에서 833ms로 절반 이하로 줄었다. 특히 토큰당 비용 측면에서 95% 이상의 절감 효과를 거두어 대규모 프로덕션 환경에 적합함을 증명했다.

증류된 Nova Micro와 Claude Haiku의 품질 점수 및 평균 지연 시간 비교 그래프 — Chart두 모델의 품질 점수는 4.0으로 동일하지만, 평균 지연 시간은 증류된 Nova Micro(833ms)가 Claude Haiku(1,741ms)보다 두 배 이상 빠르다는 실험 결과를 명확히 보여준다.

실무 Takeaway

반복적인 라우팅이나 분류 작업이 포함된 LLM 파이프라인에 모델 증류를 적용하면 Nova Micro와 같은 소형 모델로도 대형 모델급의 정확도를 확보할 수 있다.
Amazon Bedrock의 관리형 증류 서비스를 활용하면 복잡한 파이프라인 구축 없이 S3에 저장된 프롬프트 데이터만으로 효율적인 전용 모델을 학습시킬 수 있다.
비디오 검색과 같이 다중 모달리티 가중치를 계산해야 하는 복잡한 로직에서 모델 증류는 지연 시간을 50% 이상 단축하고 비용을 95% 절감하는 실질적인 생산성 도구이다.

언급된 리소스

GitHubGitHub Repository

문서Prepare your training datasets for distillation