대규모 멀티모달 임베딩: 미디어 및 엔터테인먼트 워크로드를 위한 AI 데이터 레이크 구축

핵심 요약

대규모 비디오 데이터셋에서 수동 태깅 없이 의미론적 검색을 구현하기 위해 Amazon Nova 멀티모달 임베딩과 OpenSearch Service를 결합한 솔루션을 제안한다. 약 80만 개의 비디오(8,480시간 분량)를 41시간 만에 처리하여 인덱싱을 완료했으며, 1024차원 임베딩을 사용하여 비용 효율성을 높였다. 이 시스템은 텍스트-비디오, 비디오-비디오, 그리고 키워드와 벡터 검색을 결합한 하이브리드 검색 모드를 지원하며, 대규모 데이터에서도 200ms 미만의 낮은 지연 시간을 유지한다.

배경

AWS 계정 및 Amazon Bedrock 권한, Python 3.9 이상 및 AWS CLI 설정, Amazon OpenSearch Service 도메인 (r6g.large 이상 권장), 기본적인 벡터 검색 및 임베딩 개념 이해

대상 독자

대규모 미디어 자산을 관리하고 고도화된 검색 시스템을 구축하려는 AI 엔지니어 및 솔루션 아키텍트

의미 / 영향

이 솔루션은 수동 태깅에 의존하던 기존 영상 관리 방식을 자동화된 AI 데이터 레이크 체제로 전환할 수 있음을 보여준다. 특히 저렴한 비용으로 대규모 영상 데이터를 의미론적으로 인덱싱할 수 있어 미디어 기업의 콘텐츠 재활용성을 획기적으로 높일 수 있다.

섹션별 상세

Amazon Nova Multimodal Embeddings를 활용하여 비디오를 15초 단위로 분할하고 오디오와 시각 정보를 결합한 1024차원 임베딩을 생성한다. 비동기 API를 통해 대량의 데이터를 효율적으로 처리하며, 3072차원 대신 1024차원을 선택함으로써 정확도 손실을 최소화하면서 저장 비용을 3배 절감했다.

S3 비디오 저장소에서 시작하여 EC2 오케스트레이터를 거쳐 Bedrock Nova 모델로 임베딩과 태그를 생성하고 OpenSearch에 인덱싱하는 파이프라인 다이어그램이다. — Diagram비디오 수집 파이프라인의 전체 흐름을 보여준다. EC2가 오케스트레이터 역할을 하며 Bedrock의 비동기 API를 호출해 임베딩과 텍스트 태그를 각각 생성한 뒤, OpenSearch의 k-NN 인덱스와 텍스트 인덱스에 저장하는 구조를 명확히 설명한다.

이중 인덱스 구조의 OpenSearch Service를 구축하여 벡터 검색용 k-NN 인덱스와 키워드 검색용 텍스트 인덱스를 분리 운영한다. k-NN 인덱스는 HNSW 알고리즘을 사용하여 대규모 데이터셋에서도 로그 스케일의 검색 성능을 보장하며, 텍스트 인덱스는 Nova Pro/Lite 모델로 생성한 태그를 저장해 하이브리드 검색의 정확도를 보완한다.

세 가지 검색 모드를 지원하여 다양한 사용자 요구사항을 충족한다. 사용자의 자연어 쿼리를 임베딩으로 변환하는 '텍스트-비디오 검색', 특정 비디오 세그먼트와 유사한 내용을 찾는 '비디오-비디오 검색', 그리고 벡터 유사도와 BM25 키워드 매칭을 가중치(0.7:0.3)로 결합한 '하이브리드 검색'을 구현했다.

사용자 쿼리가 텍스트-비디오, 비디오-비디오, 하이브리드 검색 모드를 통해 OpenSearch의 인덱스에서 결과를 도출하는 과정을 나타낸 아키텍처이다. — Diagram검색 아키텍처의 세 가지 모드를 시각화한다. 특히 하이브리드 검색이 k-NN 벡터 검색과 BM25 텍스트 검색 결과를 결합하여 최종 검색 결과를 생성하는 과정을 보여줌으로써 시스템의 유연성을 강조한다.

대규모 처리 성능 분석 결과, 792,270개의 비디오를 처리하는 데 41시간이 소요되었으며 총 비용은 연간 약 23,000~27,000달러 수준으로 나타났다. 검색 지연 시간은 k-NN 검색 시 약 76ms, 하이브리드 검색 시 약 106ms로 측정되어 실시간 서비스에 적합한 성능을 입증했다.

실무 Takeaway

비디오 검색 시스템 구축 시 3072차원 대신 1024차원 임베딩을 사용하면 정확도 저하를 최소화하면서 OpenSearch 저장 비용을 3배 절감할 수 있다.
Amazon Bedrock의 비동기 API와 EC2 오케스트레이터를 병렬로 구성하면 8,000시간 이상의 비디오를 이틀 안에 인덱싱하는 확장성을 확보할 수 있다.
벡터 검색(70%)과 키워드 검색(30%)을 결합한 하이브리드 검색 방식을 적용하여 단순 의미 검색의 한계를 보완하고 검색 정확도를 극대화할 수 있다.

언급된 리소스

API DocsAmazon Nova Multimodal Embeddings Documentation

문서Hybrid Search with Amazon OpenSearch Service

핵심 요약

배경

AWS 계정 및 Amazon Bedrock 권한, Python 3.9 이상 및 AWS CLI 설정, Amazon OpenSearch Service 도메인 (r6g.large 이상 권장), 기본적인 벡터 검색 및 임베딩 개념 이해

대상 독자

대규모 미디어 자산을 관리하고 고도화된 검색 시스템을 구축하려는 AI 엔지니어 및 솔루션 아키텍트

의미 / 영향

섹션별 상세

실무 Takeaway

비디오 검색 시스템 구축 시 3072차원 대신 1024차원 임베딩을 사용하면 정확도 저하를 최소화하면서 OpenSearch 저장 비용을 3배 절감할 수 있다.
Amazon Bedrock의 비동기 API와 EC2 오케스트레이터를 병렬로 구성하면 8,000시간 이상의 비디오를 이틀 안에 인덱싱하는 확장성을 확보할 수 있다.
벡터 검색(70%)과 키워드 검색(30%)을 결합한 하이브리드 검색 방식을 적용하여 단순 의미 검색의 한계를 보완하고 검색 정확도를 극대화할 수 있다.

언급된 리소스

API DocsAmazon Nova Multimodal Embeddings Documentation

문서Hybrid Search with Amazon OpenSearch Service

대규모 멀티모달 임베딩: 미디어 및 엔터테인먼트 워크로드를 위한 AI 데이터 레이크 구축

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

대규모 멀티모달 임베딩: 미디어 및 엔터테인먼트 워크로드를 위한 AI 데이터 레이크 구축

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글