GEMS: 메모리와 스킬을 갖춘 에이전트 네이티브 멀티모달 생성 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 이미지 생성 모델이 복잡한 지시사항이나 전문적인 요구사항을 한 번에 처리하지 못하는 한계를 해결하기 위해 에이전트 구조를 도입했다. 반복적인 수정 과정과 도메인 지식을 활용하여 60억 파라미터 수준의 작은 모델로도 거대 폐쇄형 모델을 능가하는 고품질 이미지를 생성할 수 있음을 입증했다.

왜 중요한가

핵심 기여

GEMS 프레임워크 제안

반복적 정제(Iterative Refinement)를 통해 복잡한 생성 작업 성능을 극대화하는 에이전트 네이티브 구조를 설계했다.

계층적 압축 기반 Agent Memory

최적화 궤적을 효율적으로 관리하고 정보 중복을 제거하며 토큰 효율성을 높이는 지속성 메모리 메커니즘을 도입했다.

확장 가능한 Agent Skill 모듈

도메인 특화 지식을 온디맨드 방식으로 로드하여 전문적인 다운스트림 작업 대응력을 강화하고 인지 부하를 최소화했다.

경량 모델의 성능 한계 돌파

Z-Image-Turbo(6B) 모델에 GEMS를 적용하여 GenEval2 벤치마크에서 Nano Banana 2와 같은 대규모 폐쇄형 모델을 능가하는 성과를 거뒀다.

핵심 아이디어 이해하기

기존의 Text-to-Image 생성은 고차원 잠재 공간(Latent Space)에서 텍스트 임베딩과 이미지 특징을 단 한 번의 추론으로 정렬시킨다. 하지만 프롬프트가 복잡해지면 모델이 모든 제약 조건을 동시에 반영하기 어려워지며, 이는 모델 규모와 상관없이 발생하는 고질적인 한계다. GEMS는 이를 해결하기 위해 생성 과정을 '반복적인 최적화 문제'로 재정의한다. 마치 사람이 그림을 그릴 때 초안을 잡고 피드백을 받아 수정하듯, 에이전트 루프가 생성된 이미지를 검증하고 부족한 부분을 분석하여 프롬프트를 다시 다듬는 과정을 반복한다. 이 과정에서 에이전트 메모리는 이전 시도들의 성공과 실패 경험을 압축 저장하여 중복된 실수를 방지하고, 에이전트 스킬은 특정 전문 지식이 필요한 순간에만 관련 데이터를 불러와 모델의 기본 용량을 초과하는 전문성을 발휘하게 한다.

방법론

Agent Loop는 Planner, Decomposer, Generator, Verifier, Refiner의 5개 모듈로 구성된다. Planner가 사용자 의도를 파악해 스킬을 할당하면, Decomposer는 프롬프트를 원자 단위의 시각적 요구사항으로 분해하여 검증 기준을 수립한다. Verifier는 MLLM을 활용해 생성된 이미지가 분해된 각 기준을 만족하는지 이진 벡터 $V_i$ 로 평가한다. 모든 기준이 충족되지 않으면 Refiner가 현재 상태와 메모리를 분석해 다음 턴의 개선된 프롬프트를 생성한다. [현재 프롬프트 $P_i$ , 이미지 $I_i$ , 검증 결과 $V_i$ , 추론 로그 $T_i$ , 이전 메모리 $M_{i-1}$ 을 입력으로] → [Refiner 에이전트가 이 정보들을 종합 분석하여] → [다음 단계의 개선된 프롬프트 $P_{i+1}$ 을 도출하며] → [이는 이전의 실패를 보완하고 성공한 요소를 유지하는 최적화된 지시어가 된다.][각 반복 회차 $k$ 에서 생성된 이미지 $I_k$ 와 검증 결과 벡터 $v_{k,j}$ 가 주어질 때] → [만족된 기준의 개수를 모두 합산하여] → [가장 많은 기준을 통과한 이미지의 인덱스를 찾아] → [최종 결과물로 반환한다.]Agent Memory는 계층적 압축 전략을 사용한다. 프롬프트나 이미지 같은 사실적 데이터는 원본 그대로 저장하고, MLLM의 장황한 추론 로그는 Compressor를 통해 핵심 경험으로 요약하여 토큰 효율성을 높인다. Agent Skill은 온디맨드 로딩 방식을 채택하여, 평소에는 스킬 목록만 유지하다가 특정 스킬이 트리거될 때만 상세 지침을 불러와 추론 비용을 최소화하면서 도메인 전문성을 확보한다.

주요 결과

GenEval2 벤치마크에서 GEMS를 적용한 Z-Image-Turbo(6B) 모델은 63.5점을 기록하여, 기존 SOTA 모델인 Nano Banana 2(44.6점)와 GPT-Image를 크게 앞질렀다. 5개의 주요 벤치마크 평균 점수에서 Z-Image-Turbo는 14.22점, Qwen-Image-2512는 16.24점의 성능 향상을 보였으며, 특히 텍스트 렌더링과 공간 지능이 필요한 복잡한 지시사항 이행 능력이 비약적으로 개선되었다. Ablation Study 결과, Agent Loop만 사용했을 때보다 Memory와 Skill을 모두 결합했을 때 성능이 31.0점에서 63.5점으로 상승했으며, 평균 반복 횟수도 3.26회에서 2.80회로 줄어들어 효율성이 향상됨이 확인됐다.

기술 상세

GEMS는 추론 시간 스케일링(Inference-time Scaling)을 멀티 에이전트 협업 체계로 구현한 프레임워크다. 기존의 단순 프롬프트 재작성 방식과 달리, 명시적인 검증 기준 분해(Decomposition)와 지속성 메모리(Persistent Memory)를 결합하여 최적화 궤적을 관리한다. Agent Memory는 하이브리드 상태 튜플 구조를 가지며, MLLM의 추론 로그를 압축한 핵심 경험(Experiences)을 통해 정보 밀도를 높여 Refiner가 긴 컨텍스트 내에서도 최적의 수정 방향을 잡을 수 있게 지원한다. Agent Skill은 마크다운 형식의 외부 지식 저장소로 구현되어 확장이 용이하며, Planner가 사용자 프롬프트와 스킬 설명을 매칭하여 필요한 지식만 컨텍스트에 주입함으로써 모델 파라미터 업데이트 없이도 새로운 도메인 지식을 활용할 수 있는 구조를 갖췄다.

한계점

반복적인 에이전트 루프 특성상 단발성 생성 모델에 비해 추론 지연 시간(Latency)이 발생한다. 또한 현재 시스템은 미리 정의된 워크플로우에 의존하고 있어 에이전트의 자율성을 더 높일 여지가 있으며, 이미지 편집(Editing) 기능은 아직 지원하지 않는다.

실무 활용

복잡한 레이아웃이나 정확한 텍스트 포함이 필요한 고난도 이미지 생성 워크플로우에 즉시 적용 가능하다.

광고 카피와 제품이 정확한 위치에 배치되어야 하는 마케팅 이미지 생성
복잡한 공간적 관계 설명이 포함된 교육용 삽화 및 다이어그램 제작
특정 예술적 화풍이나 전문 도메인 지식이 필요한 고정밀 이미지 합성

코드 공개 여부: 공개

코드 저장소 보기

키워드

Agentic Framework(에이전트 프레임워크)Multimodal Generation(멀티모달 생성)Iterative Refinement(반복적 정제)Agent Memory(에이전트 메모리)Inference-time Scaling(추론 시간 스케일링)