Gen-Searcher: 이미지 생성을 위한 에이전트 기반 강화 검색 시스템

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 이미지 생성 모델은 학습 시점 이후의 정보나 아주 구체적인 지식을 모르면 엉뚱한 이미지를 만드는 한계가 있다. 이 논문은 모델이 스스로 인터넷을 검색해 정확한 시각적·텍스트 정보를 찾아내고 이를 바탕으로 정확한 이미지를 생성하는 에이전트 기술을 제시한다.

왜 중요한가

핵심 기여

Gen-Searcher 에이전트 아키텍처

멀티홉 추론과 검색을 통해 이미지 생성에 필요한 텍스트 지식과 참조 이미지를 능동적으로 수집하는 최초의 검색 증강 이미지 생성 에이전트이다.

고품질 지식 집약적 데이터셋 구축

SFT용 10k 및 RL용 6k 규모의 검색 집약적 프롬프트와 정답 이미지 쌍을 포함하는 데이터 파이프라인을 설계하고 공개했다.

KnowGen 벤치마크 및 K-Score 제안

지식 집약적 이미지 생성 능력을 평가하기 위해 630개의 인간 검증 샘플로 구성된 KnowGen 벤치마크와 다차원 평가 지표인 K-Score를 도입했다.

이중 보상 피드백 기반 강화학습

텍스트 기반 보상과 이미지 기반 보상을 결합하여 GRPO 학습의 안정성을 높이고 에이전트의 정보 수집 품질을 최적화했다.

핵심 아이디어 이해하기

기존 텍스트-이미지 생성 모델은 학습 과정에서 저장된 내부 파라미터 지식에만 의존한다. 이는 최신 뉴스나 아주 희귀한 유물 같은 정보를 처리할 때 실제와 다른 이미지를 만드는 '환각' 현상의 원인이 된다. Transformer 기반 모델의 고정된 메모리 한계를 외부 검색으로 확장하는 것이 핵심 아이디어이다.

Gen-Searcher는 프롬프트를 받으면 즉시 이미지를 그리는 대신, 필요한 정보를 정의하고 웹 검색 도구를 사용해 텍스트 데이터와 참조 이미지를 수집한다. 이 과정에서 수집된 정보가 충분한지 스스로 판단하는 멀티홉 과정을 거치며, 최종적으로 수집된 근거를 바탕으로 이미지를 생성함으로써 정확도를 높인다.

이러한 방식은 모델이 모르는 것을 스스로 찾아보게 함으로써 지식의 유통기한 문제를 해결한다. 특히 시각적 참조 이미지를 직접 검색하여 생성 과정에 주입함으로써, 텍스트 설명만으로는 부족한 세부 외형 정보를 정확하게 재현할 수 있게 된다.

방법론

데이터 파이프라인은 Gemini 3 Pro를 활용해 검색이 필요한 복잡한 프롬프트를 생성하고, 검색 도구를 사용해 에이전트 궤적을 수집한 뒤 Nano Banana Pro로 정답 이미지를 합성하는 4단계로 구성된다. 수집된 데이터는 Seed1.8 모델을 통해 품질 필터링을 거쳐 최종 학습 데이터셋으로 확정된다.

학습은 2단계로 진행된다. 1단계 SFT는 Qwen3-VL-8B 모델이 검색, 이미지 검색, 브라우징 도구를 적재적소에 호출하는 기초 능력을 학습시킨다. 2단계 에이전트 RL은 GRPO 알고리즘을 사용하여 도구 호출 궤적을 최적화하며, 더 높은 품질의 근거 프롬프트를 생성하도록 유도한다.

이중 보상 설계는 이미지 품질 점수인 K-Score(R_image)와 텍스트 기반 보상(R_text)을 결합한다. [K-Score와 R_text 입력 → 0.5:0.5 비율로 가중치 합산 → 최종 보상 R 산출] 과정을 거친다. R_text는 GPT-4.1을 판정관으로 사용하여 수집된 정보의 충분성을 평가하며, 이는 이미지 생성기의 변동성으로 인한 노이즈를 줄여 학습 안정성을 제공한다.

주요 결과

KnowGen 벤치마크 실험 결과, Gen-Searcher-8B를 Qwen-Image와 결합했을 때 K-Score가 기존 14.98에서 31.52로 약 16.54점 상승했다. 이는 모델이 외부 지식을 성공적으로 통합하여 시각적 정확성을 개선했음을 입증한다.

WISE 벤치마크에서도 0.62에서 0.77로 성능이 향상되었으며, 특히 과학 및 지식 분야에서 강점을 보였다. 또한 Qwen-Image로 학습된 Gen-Searcher가 Seedream 4.5나 Nano Banana Pro 같은 다른 이미지 생성 모델과 결합했을 때도 각각 16.28점, 2.92점의 성능 향상을 보여 높은 전이성을 확인했다.

Ablation Study를 통해 텍스트 보상과 이미지 보상을 모두 사용했을 때(31.52)가 하나만 사용했을 때(29.36~29.59)보다 우수한 성능을 냄이 확인됐다. 이는 정보 수집의 정확성과 최종 생성 품질을 동시에 감독하는 것이 필수적임을 나타낸다.

기술 상세

Gen-Searcher는 Qwen3-VL-8B-Instruct를 베이스 모델로 하며, search(텍스트 검색), image_search(이미지 검색), browse(웹페이지 요약)의 세 가지 도구를 사용한다. 추론 시 최대 10회의 상호작용 턴을 허용하며, 각 턴마다 최대 5개의 이미지 결과를 반환받을 수 있다.

강화학습 단계에서 사용된 GRPO는 그룹 내 상대적 우위를 Advantage로 계산한다. [개별 보상 Ri - 그룹 평균 보상 / 표준편차 → Advantage Ai 산출] 과정을 통해 가치 모델 없이도 효율적인 정책 업데이트가 가능하다. 학습에는 8개의 NVIDIA H800 GPU가 사용되었으며, 약 하루의 학습 시간이 소요된다.

평가 지표인 K-Score는 Faithfulness(0.1), Visual Correctness(0.4), Text Accuracy(0.4), Aesthetics(0.1)의 가중치 합으로 계산된다. 이는 단순한 심미성보다 지식의 정확한 시각적 구현과 텍스트 렌더링의 정확도에 더 높은 비중을 두어 검색 증강의 효과를 정밀하게 측정한다.

한계점

하위 이미지 생성 모델의 성능 한계로 인해 검색된 정보가 정확하더라도 최종 이미지에서 다중 객체 간의 일관성이 깨지거나 복잡한 텍스트 렌더링 오류가 발생할 수 있는 문제가 여전히 존재한다.

실무 활용

최신 정보나 전문 지식이 필요한 이미지 생성 서비스에 즉시 적용 가능한 에이전트 프레임워크이다. 특정 인물, 신제품, 지역 축제 등 학습 데이터에 없는 대상을 정확하게 그려야 하는 상용 서비스에 유용하다.

최신 뉴스 기사를 바탕으로 한 정확한 보도용 일러스트레이션 생성
특정 문화재나 유물의 세부 특징을 반영한 교육용 이미지 제작
신규 출시된 브랜드 제품의 특징을 정확히 묘사하는 광고 시안 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

T2I(텍스트-이미지 생성)RAG(검색 증강 생성)Agentic RL(에이전트 기반 강화학습)GRPO(그룹 상대 정책 최적화)Multimodal(멀티모달)