핵심 요약
기존 이미지 생성 AI가 학습 데이터에 없는 희귀한 캐릭터나 역사적 인물을 그릴 때 발생하는 '환각' 문제를 해결합니다. 모델이 스스로 외부 정보를 검색하고 이를 바탕으로 정교한 묘사 지침을 만들어 생성함으로써, 실세계 지식에 기반한 정확하고 고품질의 이미지를 구현합니다.
왜 중요한가
기존 이미지 생성 AI가 학습 데이터에 없는 희귀한 캐릭터나 역사적 인물을 그릴 때 발생하는 '환각' 문제를 해결합니다. 모델이 스스로 외부 정보를 검색하고 이를 바탕으로 정교한 묘사 지침을 만들어 생성함으로써, 실세계 지식에 기반한 정확하고 고품질의 이미지를 구현합니다.
핵심 기여
통합 멀티모달 에이전트 패러다임 제시
이미지 생성을 단순한 텍스트-이미지 매핑이 아닌 'Think-Research-Recaption-Generate'로 이어지는 추론 기반의 순차적 의사결정 프로세스로 재정의했다.
143K 규모의 고품질 에이전트 궤적 데이터셋 구축
외부 지식 검색부터 최종 이미지 생성까지의 전 과정을 포함하는 멀티모달 에이전트 학습용 데이터를 구축하여 모델의 추론 및 지식 통합 능력을 강화했다.
사실성 평가를 위한 FactIP 벤치마크 도입
유명인, 문화 유산, 희귀 캐릭터 등 외부 지식이 필수적인 12개 카테고리의 롱테일 개념을 평가하는 2,462개의 큐레이션된 프롬프트를 제안했다.
검색 지식의 구조화된 재구성(Recaption) 기법
검색된 원본 데이터를 그대로 사용하지 않고, 정체성 보존 제약과 장면 구성 제약을 분리하여 정교한 텍스트 사양으로 변환함으로써 생성의 정확도를 높였다.
핵심 아이디어 이해하기
기존의 Unified Multimodal Model(UMM)은 텍스트와 이미지를 하나의 모델에서 처리하지만, 학습 시점에 고정된 파라미터 메모리에만 의존한다. 이로 인해 학습 데이터에 적게 등장하는 '롱테일' 개체나 최신 정보를 생성할 때 정체성 왜곡(Identity Drift)이나 환각이 발생한다. 이는 모델이 그 대상이 어떻게 생겼는지에 대한 '지식'이 부족하기 때문에 발생하는 문제이다.
Unify-Agent는 이를 해결하기 위해 '오픈 북(Open-book)' 접근 방식을 취한다. 모델이 프롬프트를 받으면 먼저 자신의 지식 공백을 파악(Think)하고, 필요한 정보를 외부에서 검색(Research)한다. 이때 모델 내부의 ViT(Vision Transformer)와 VAE(Variational Autoencoder)를 동시에 활용한다. ViT는 이미지의 고수준 의미 정보를 추출하여 개체를 식별하고, VAE는 질감이나 기하학적 구조 같은 저수준 시각 세부사항을 보존한다.
검색된 파편화된 정보를 그대로 생성기에 넣는 대신, 이를 정교한 텍스트 묘사로 변환하는 'Recaption' 단계를 거친다. 이 과정은 검색된 참조 이미지의 핵심 특징을 보존하면서도 사용자의 의도에 맞는 새로운 이미지를 생성할 수 있는 최적의 가이드를 생성한다. 결과적으로 모델은 내부 지식의 한계를 외부 검색으로 보완하고, 이를 멀티모달 추론을 통해 시각적 가이드로 정제하여 정확한 이미지를 합성한다.
방법론
전체 파이프라인은 네 단계의 인지 단계로 구성된다. 첫째, Cognitive Gap Detection 단계에서는 입력된 프롬프트를 내부 지식과 대조하여 누락된 시각적 속성을 식별하고 외부 지식 필요 여부를 결정한다. 둘째, Evidence Acquisition 단계에서는 식별된 지식 공백을 메우기 위해 텍스트 검색으로 맥락을 파악하고, 이를 바탕으로 정교한 이미지 검색 쿼리를 생성하여 시각적 참조 자료를 확보한다.
셋째, Evidence-Grounded Recaptioning 단계는 핵심 메커니즘으로, 검색된 원본 데이터의 노이즈를 필터링하고 생성 모델이 이해하기 쉬운 구조화된 텍스트 사양(c)을 만든다. [사용자 프롬프트 x, 검색된 텍스트 Et, 이미지 Ev 입력] → [멀티모달 추론 연산] → [구조화된 Recaption c 출력]. 이 단계에서 정체성 보존 제약(Identity-preserving constraints)과 장면 구성 제약(Scene-compositional constraints)을 명확히 분리한다.
넷째, Visual Synthesis 단계에서는 생성된 Recaption c와 시각적 앵커를 조건으로 최종 이미지를 합성한다. 학습을 위해 143K개의 에이전트 궤적 데이터를 사용해 Supervised Fine-Tuning(SFT)을 진행했다. 손실 함수는 L_SFT = L_text + L_image로 구성된다. [텍스트 토큰과 이미지 잠재 변수 입력] → [Next-token prediction 및 Flow-matching 연산] → [예측 오차 산출] → [오차를 최소화하도록 가중치 갱신] 순으로 학습이 진행된다.
주요 결과
FactIP 벤치마크에서 Unify-Agent는 종합 점수 73.2점을 기록하며 베이스 모델인 Bagel(50.9점) 대비 22점 이상의 성능 향상을 보였다. 특히 정체성 일관성을 측정하는 Relevance 항목에서 44.9점에서 72.4점으로 비약적인 상승을 나타내어 롱테일 개체 묘사 능력이 크게 개선되었음을 입증했다.
Ablation Study 결과, 텍스트 검색을 제거했을 때 점수가 65.4점으로, 이미지 검색을 제거했을 때 56.2점으로 하락하여 시각적 참조 자료 확보가 롱테일 개체 생성에 결정적인 역할을 함이 확인됐다. 또한 Recaption 단계를 생략하고 원본 데이터를 직접 주입할 경우 성능이 62.9점으로 떨어져, 지식의 재구성 과정이 필수적임이 확인됐다.
WiSE, KiTTEN, T2I-FactualBench 등 기존의 사실성 평가 벤치마크에서도 오픈소스 통합 모델 중 최고 수준의 성능을 달성했다. 특히 WiSE 벤치마크에서는 문화(0.82), 생물(0.72), 화학(0.70) 도메인에서 강점을 보이며 상용 폐쇄형 모델과의 성능 격차를 크게 좁혔다.
기술 상세
Unify-Agent는 Bagel 아키텍처를 기반으로 하며, Mixture-of-Transformers(MoT) 구조를 사용하여 멀티모달 입력을 처리한다. 시각적 인코딩을 위해 ViT와 VAE를 병렬로 활용하여 고수준 의미와 저수준 세부사항을 모두 포착한다. 학습 시에는 하이브리드 어텐션 마스킹(Hybrid Attention Masking) 기술을 적용하여, 텍스트 추론 과정에는 인과적 마스킹을, 참조 이미지 토큰에는 풀 어텐션을 적용함으로써 정보의 흐름을 정교하게 제어한다.
구현 측면에서는 64개의 NVIDIA H20 GPU를 사용하여 약 10일간 학습을 진행했으며, 10,000번의 그래디언트 스텝을 거쳤다. 추론 시에는 각 텍스트 검색당 최대 5개의 웹 결과와 이미지 검색당 최대 8개의 후보 이미지를 반환하도록 설정되어 있으며, Gemini 3 Flash를 경량 시각 평가기로 사용하여 최적의 참조 이미지를 선택한다.
한계점
현재 오픈소스 통합 모델의 한계로 인해 베이스 모델의 컨텍스트 길이가 제한적이며, 복잡한 에이전트 행동을 지원하는 데 제약이 있다. 또한 현재 파이프라인은 단일 패스(One-pass) 워크플로우로 구성되어 있어, 반복적인 검색이나 자기 반성(Self-reflection)과 같은 고도화된 에이전트 기능은 포함되지 않았다.
실무 활용
특정 인물, 캐릭터, 문화적 자산 등 정확한 시각적 정보가 필요한 도메인에서 환각 없는 이미지 생성 도구로 활용 가능합니다.
- 역사적 인물이나 사건의 교육용 시각 자료 생성
- 특정 IP(지식재산권) 캐릭터의 일관된 디자인 및 굿즈 시안 생성
- 희귀한 식물, 동물 또는 문화 유산의 도감용 이미지 합성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.