ROSE: 검색 지향적 세그멘테이션 강화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 멀티모달 대형 언어 모델(MLLM) 기반의 세그멘테이션 모델은 학습 데이터의 컷오프 시점 이후에 등장한 새로운 객체나 최신 정보가 필요한 대상을 인식하지 못하는 한계가 있다. 이 논문은 실시간 웹 검색을 세그멘테이션 프로세스에 통합하여 모델을 재학습시키지 않고도 최신 트렌드와 미학습 객체를 정확히 분할할 수 있는 플러그앤플레이 프레임워크를 제시한다.

왜 중요한가

기존 멀티모달 대형 언어 모델(MLLM) 기반의 세그멘테이션 모델은 학습 데이터의 컷오프 시점 이후에 등장한 새로운 객체나 최신 정보가 필요한 대상을 인식하지 못하는 한계가 있다. 이 논문은 실시간 웹 검색을 세그멘테이션 프로세스에 통합하여 모델을 재학습시키지 않고도 최신 트렌드와 미학습 객체를 정확히 분할할 수 있는 플러그앤플레이 프레임워크를 제시한다.

핵심 기여

NEST(Novel Emerging Segmentation Task) 정의

학습 데이터에 존재하지 않는 새로운 엔티티(Novel Entity)와 모델의 지식에는 있으나 최신 맥락이 필요한 엔티티(Emerging Entity)를 분할하는 새로운 과업을 정의했다.

ROSE 프레임워크 제안

인터넷 검색 증강 생성(IRAG), 텍스트 프롬프트 강화기(TPE), 시각적 프롬프트 강화기(VPE)를 결합하여 MLLM의 인식 능력을 보완하는 플러그앤플레이 구조를 설계했다.

자동화된 NEST 벤치마크 구축

Google Trends와 뉴스 데이터를 활용해 최신 이슈와 관련된 1,500개 이상의 이미지-질문-마스크 쌍을 자동으로 생성하는 데이터 엔진을 개발하고 벤치마크를 공개했다.

WebSense 모듈을 통한 효율적 검색

사용자의 입력이 실시간 정보를 필요로 하는지 지능적으로 판단하여 불필요한 검색 호출을 줄이고 시스템 자원을 최적화하는 의사결정 모듈을 도입했다.

핵심 아이디어 이해하기

기존의 MLLM 기반 세그멘테이션 모델은 고정된 파라미터 내에 저장된 지식에만 의존한다. 이는 Transformer 아키텍처가 학습 시점의 데이터 분포를 Embedding 공간에 고정시키기 때문에 발생하는 문제로, 학습 이후에 출시된 제품(예: iPhone 17)이나 변화된 인물 정보(예: 현재 대통령)를 처리할 때 Softmax 확률 분포가 엉뚱한 곳을 가리키거나 아예 활성화되지 않는 결과를 초래한다.

ROSE는 이 문제를 해결하기 위해 모델 외부의 동적인 지식 베이스인 인터넷을 활용한다. 사용자의 쿼리가 들어오면 먼저 최신 정보가 필요한지 판단하고, 필요시 검색 엔진을 통해 관련 텍스트와 참조 이미지를 가져온다. 이를 통해 모델의 고정된 지식 공간(K)을 외부 지식(E)으로 확장하여 새로운 합집합 공간(S = K ∪ E)에서 추론이 가능하게 만든다.

결과적으로 모델은 자신이 본 적 없는 물체라도 검색된 참조 이미지의 특징(Feature)과 입력 이미지 내 후보 영역의 특징 사이의 코사인 유사도를 계산함으로써 대상을 식별할 수 있게 된다. 이는 모델을 다시 학습시키지 않고도 지식의 유효 기간을 실시간으로 갱신하는 효과를 준다.

방법론

ROSE는 네 가지 핵심 구성 요소로 이루어진다. 첫째, IRAG(Internet Retrieval-Augmented Generation) 모듈은 사용자의 멀티모달 입력을 기반으로 최신 웹 정보를 검색한다. 둘째, TPE(Textual Prompt Enhancer)는 검색된 텍스트를 정제하여 대상에 대한 상세 설명과 배경 지식을 텍스트 프롬프트에 주입한다.

셋째, VPE(Visual Prompt Enhancer)는 검색된 참조 이미지에서 특징을 추출하여 모델의 시각적 이해를 돕는다. 검색된 이미지 x_img에서 CLIP을 통해 특징 벡터 f_s를 추출하고, 입력 이미지 내의 후보 객체 E_i들의 특징 f_i와 비교한다. [f_i와 f_s의 내적 연산] → [코사인 유사도 산출] → [임계값 τ 초과 여부 확인] → [가장 유사한 객체를 타겟으로 선정] 과정을 거친다.

넷째, WebSense 모듈은 이진 결정 구조를 가진다. 가벼운 규칙 기반 필터와 LLM을 활용하여 입력 쿼리가 시간 민감형인지 또는 복잡한 문맥을 포함하는지 분석한다. [사용자 쿼리 입력] → [WebSense 분석] → [검색 실행 여부 결정] 순으로 동작하여 추론 지연 시간과 비용을 최소화한다.

주요 결과

NEST 벤치마크 실험 결과, ROSE는 기존 SOTA 모델인 LISA-7B 대비 gIoU(Generalized Intersection over Union) 기준 24.3%p 향상된 성능(48.7% → 73.0%)을 기록했다. 특히 학습 데이터에 전혀 없는 'Novel Entity' 분할 성능에서 LISA-7B(38.4%)를 압도하는 67.0%의 gIoU를 달성했다.

상용 모델인 Gemini-2.0-Flash Search를 백엔드로 사용하는 강력한 검색 기반 베이스라인과 비교했을 때도 ROSE는 gIoU 기준 19.2% 더 높은 성능을 보였다. 이는 단순한 텍스트 검색을 넘어 시각적 프롬프트 강화(VPE)를 통해 참조 이미지를 직접 비교하는 방식이 미학습 객체 인식에 결정적인 역할을 했음을 증명한다.

Ablation Study에 따르면, IRAG만 추가했을 때보다 TPE와 VPE를 모두 결합했을 때 성능이 가장 높았다. 특히 VPE는 Novel Entity 인식에서 cIoU를 24.5%p 끌어올리는 핵심적인 기여를 한 것으로 나타났다.

기술 상세

ROSE의 아키텍처는 기존 MLLM 기반 세그멘테이션 모델(LISA, SESAME 등)에 검색 모듈을 결합한 형태다. 핵심 차별점은 텍스트와 이미지를 동시에 검색하여 프롬프트를 강화한다는 점이다. TPE는 검색된 정보를 Map-Reduce 방식으로 요약하여 MLLM이 처리하기 적합한 형태의 컨텍스트로 변환한다.

VPE는 SAM(Segment Anything Model)의 마스크 디코더를 최종 단계에서 활용한다. MLLM이 대상을 정확히 짚어내지 못할 경우, VPE가 검색된 참조 이미지의 프로토타입 특징과 입력 이미지의 후보 영역들 사이의 유사도를 계산하여 타겟의 바운딩 박스를 보정한다. 이 보정된 좌표가 SAM의 입력으로 들어가 고품질의 세그멘테이션 마스크를 생성하게 된다.

데이터 엔진 측면에서는 Google Trends API를 통해 실시간 검색어를 수집하고, GPT-4o를 사용하여 세그멘테이션이 가능한 구체적인 엔티티만 필터링한다. 이후 검색 엔진으로 수집된 이미지들을 CLIP 기반 클러스터링으로 정제하여 노이즈를 제거함으로써 고품질의 NEST 데이터셋을 자동으로 구축한다.

한계점

실시간 인터넷 검색에 의존하므로 검색 엔진의 결과 품질에 따라 성능이 좌우될 수 있다. 또한 검색 및 다중 모듈 처리에 따른 추가적인 추론 지연 시간이 발생할 수 있으며, 이는 실시간성이 극도로 중요한 환경에서는 제약이 될 수 있다.

실무 활용

최신 트렌드에 민감한 이커머스, 뉴스 분석, 자율 주행 시스템 등에서 재학습 없이 새로운 객체를 즉시 인식하고 분할하는 데 활용할 수 있다.

이커머스: 새로 출시된 한정판 운동화나 전자기기를 사용자의 자연어 설명만으로 이미지에서 정확히 찾아내고 분할
미디어 모니터링: 실시간 뉴스에 등장하는 새로운 인물이나 사건 관련 객체를 자동으로 추적 및 마스킹
지능형 에이전트: 사용자가 '어제 발표된 저 차를 분할해줘'와 같은 최신 맥락이 포함된 명령을 내릴 때 검색을 통해 정확히 수행

코드 공개 여부: 공개

코드 저장소 보기

키워드

MLLM(멀티모달 대형 언어 모델)RAG(검색 증강 생성)Segmentation(세그멘테이션)NEST(신규 부상 엔티티 분할 과업)ROSE(검색 지향적 분할 강화)