Google 범용 이미지 임베딩 경진대회 1위 솔루션 발표 | AI Trends

Google 범용 이미지 임베딩 경진대회 1위 솔루션 발표

다양한 도메인을 아우르는 범용 이미지 임베딩 모델 구축을 위해 멀티 스테이지 학습과 임베딩 공간 정렬 기법을 활용한 1위 팀의 노하우를 공유합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

데이터셋 선택의 중요성, ArcFace 손실 함수의 동적 파라미터 조정, 그리고 앙상블 시 임베딩 공간의 왜곡을 방지하기 위한 정렬 기법이 우승의 핵심이다.

배경

구글이 주최한 범용 이미지 임베딩 경진대회(GUIE)에서 의류, 예술품, 랜드마크 등 다양한 도메인을 통합하는 모델을 구축하는 과제에 대한 우승자 발표이다.

대상 독자

컴퓨터 비전 연구자, Kaggle 참가자, 임베딩 모델 최적화에 관심 있는 개발자

의미 / 영향

이 솔루션은 특정 도메인에 국한되지 않는 강력한 검색 엔진 구축의 표준을 제시한다. 특히 서로 다른 학습 환경에서 나온 모델들을 효과적으로 결합하는 임베딩 공간 정렬 기법은 실무에서 대규모 모델 앙상블 시 비용 효율적인 성능 향상을 가능하게 한다.

챕터별 상세

00:00

솔루션 개요 및 학습 도구

경진대회 1위 팀인 cuilab.ai의 Shihao Shao가 솔루션을 발표했다. 학습에는 PyTorch 프레임워크를 사용했으며 외부 패키지 없이 직접 작성한 파이프라인을 활용했다. 전체 학습 시간은 10일 이상 소요되었으며 멀티 스테이지 학습과 다양한 트릭을 적용했다.

04:40

그리디 방식의 데이터셋 선택 전략

범용 임베딩을 위해 다양한 도메인의 데이터셋을 수집하고 성능 향상에 기여하는 데이터만 선별했다. 새로운 데이터셋을 추가했을 때 정확도가 상승하는지 확인하는 루틴을 반복하여 최종 데이터셋 리스트를 확정했다. Products-10K, Shopee, Alibaba Goods 등 커머스 데이터와 예술품 데이터가 포함되었다.

범용 임베딩 모델은 특정 도메인에 편향되지 않도록 다양한 성격의 데이터를 균형 있게 학습하는 것이 중요하다.

python

Algorithm 1 Datasets Selection Paradigms
Input: Current training datasets D_train, Training procedure T, Model M
1: ACC_best = 0
2: M_acc_cost = T(M, D_train)
3: while not Datasets_Searching.End() do
4:     Found_New_Datasets = Datasets_Searching()
5:     if Found_New_Datasets then
6:         M_temp_ACC = T(M, B + Found_New_Datasets)
7:         if M_temp_ACC > ACC_best then
8:             ACC_best = M_temp_ACC
9:             D_train.push(Found_New_Datasets)
10: return D_train

성능 향상에 기여하는 데이터셋을 탐색하고 선택하는 그리디(Greedy) 방식의 알고리즘 의사코드

06:40

학습 설정 및 하이퍼파라미터 최적화

최적화 도구로 모멘텀 0.9를 적용한 SGD를 사용했다. 일반화 성능을 높이기 위해 Adam보다 SGD가 유리하다는 실험 결과를 바탕으로 선택했다. 미니 배치 사이즈는 Fully-connected 레이어에 1024, 백본에는 256을 적용했으며 학습률 스케줄러를 통해 단계적으로 감소시켰다.

08:50

15단계 멀티 스테이지 학습 파이프라인

학습 과정을 총 15단계로 나누어 정교하게 제어했다. 초기에는 백본을 고정하고 마지막 레이어만 학습하여 사전 학습된 가중치를 보존했다. 이후 점진적으로 백본을 해제하고 이미지 해상도를 224에서 280, 290으로 높이며 학습을 진행했다. ArcFace의 마진(m) 값을 후반부에 0.5에서 0.55로 높여 클래스 간 변별력을 강화했다.

멀티 스테이지 학습은 모델이 급격하게 무너지는 것을 방지하고 단계적으로 복잡한 특징을 학습하게 한다.

15:40

임베딩 앙상블의 문제점: 공간 왜곡

서로 다른 모델의 임베딩을 단순 평균 내어 앙상블할 경우 성능이 오히려 하락하는 현상을 발견했다. 이는 각 모델이 생성하는 임베딩 공간의 중심(Central Embedding)이 서로 정렬되어 있지 않기 때문이다. 벡터 공간이 일치하지 않은 상태에서 평균을 내면 특징 공간이 왜곡되어 변별력이 사라진다.

20:10

임베딩 공간 정렬을 위한 두 가지 접근법

공간 왜곡을 방지하기 위해 두 가지 방법을 제안했다. 첫 번째는 하이퍼파라미터만 바꿔 학습하되 마지막 레이어(FC)를 고정하여 모든 모델이 동일한 중심을 갖게 하는 방식이다. 두 번째는 선형 레이어(Linear Layer)를 추가하여 서로 다른 모델의 임베딩 공간을 하나로 매핑하는 방식이다. 실험 결과 첫 번째 방식이 더 안정적인 성능 향상을 보였다.

임베딩 공간 정렬은 서로 다른 모델이 동일한 '언어'로 특징을 표현하게 만드는 과정과 같다.

실무 Takeaway

범용 이미지 임베딩 모델 학습 시 도메인별 데이터셋의 기여도를 그리디 방식으로 평가하여 단계적으로 추가하는 전략이 유효하다.
ArcFace의 마진(m) 값을 학습 초기에는 낮게 설정하여 수렴을 돕고, 후반부에 높여 클래스 간 변별력을 극대화하는 것이 성능 향상에 도움이 된다.
서로 다른 모델을 앙상블할 때는 단순 벡터 평균 대신 마지막 레이어를 고정하거나 정렬 레이어를 사용하여 임베딩 공간의 일관성을 확보해야 한다.

언급된 리소스

DemoGoogle Universal Image Embedding Competition

논문Model Soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 25.수집 2026. 02. 25.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.