핵심 요약
기존 텍스트-이미지 모델은 복잡한 프롬프트의 세부 사항을 모두 반영하지 못하는 Conceptual Rift 현상을 겪는다. SCOPE는 이를 해결하기 위해 생성 과정을 구조화된 명세서 기반으로 관리하며, 검색과 추론 기능을 결합해 사용자 의도에 완벽히 부합하는 고품질 이미지를 생성한다.
왜 중요한가
기존 텍스트-이미지 모델은 복잡한 프롬프트의 세부 사항을 모두 반영하지 못하는 Conceptual Rift 현상을 겪는다. SCOPE는 이를 해결하기 위해 생성 과정을 구조화된 명세서 기반으로 관리하며, 검색과 추론 기능을 결합해 사용자 의도에 완벽히 부합하는 고품질 이미지를 생성한다.
핵심 기여
Conceptual Rift 현상 정의 및 공식화
이미지 생성 생명주기 동안 복잡한 시각적 의도가 개별적인 운영 단위로 유지되지 못하고 단절되는 현상을 정의하고 이를 해결하기 위한 프레임워크의 필요성을 제시했다.
SCOPE 프레임워크 제안
구조화된 의미론적 명세(Structured Semantic Specification)를 중심으로 검색, 추론, 수정 스킬을 조건부로 호출하여 생성 전 과정을 조율하는 시스템을 구축했다.
Gen-Arena 벤치마크 및 EGIP 지표 도입
엔티티와 제약 조건 수준의 정밀한 평가를 위해 300개의 인스턴스를 포함한 Gen-Arena 데이터셋과 엄격한 통과 기준인 Entity-Gated Intent Pass Rate(EGIP)를 개발했다.
핵심 아이디어 이해하기
기존의 이미지 생성 모델은 텍스트 임베딩을 한 번에 이미지로 변환하려 시도한다. 이 과정에서 프롬프트에 포함된 수많은 엔티티와 그들 간의 관계 정보가 손실되거나 왜곡되는 문제가 발생한다. 이는 마치 복잡한 설계도 없이 건물을 한 번에 지으려는 것과 같아, 결과물이 설계자의 의도와 달라지는 한계가 있었다.
SCOPE는 이 문제를 해결하기 위해 생성 과정을 '구조화된 명세서' 관리 방식으로 전환한다. 먼저 프롬프트를 엔티티, 제약 조건, 미확인 정보로 분해하여 명세서를 작성한다. 이후 모델은 이 명세서를 바탕으로 부족한 정보는 검색하고, 논리적 모순은 추론하며, 생성된 이미지의 오류는 부분적으로 수정하는 과정을 반복한다.
결과적으로 SCOPE는 생성의 각 단계가 동일한 명세서를 공유하게 함으로써 정보의 연속성을 유지한다. 이를 통해 여러 캐릭터가 등장하거나 복잡한 상호작용이 포함된 장면에서도 각 요소가 누락되지 않고 정확하게 묘사되는 고도의 정밀함을 달성한다.
방법론
SCOPE 프레임워크는 Decomposer, Synthesizer, Generator, Verifier의 4단계 핵심 파이프라인으로 구성된다. Decomposer는 사용자 요청을 z = (E, C, U) 형태의 구조화된 명세로 변환한다. 여기서 E는 엔티티, C는 제약 조건, U는 미확인 정보를 의미한다.
명세서가 작성되면 조건부 스킬 오케스트레이션이 작동한다. U에 포함된 정보가 외부 지식을 필요로 하면 Retrieval 스킬을 호출하고, 암시적인 요구사항은 Reasoning 스킬로 해결하여 명세서를 업데이트한다. [입력된 미확인 정보 → 검색/추론 연산 → 구체화된 속성값 → 명세서 최신화]
생성 후에는 Verifier가 이미지와 명세서를 대조하여 개별 항목별로 검증을 수행한다. 검증 결과가 'fail'인 항목은 Repair 스킬로 전달되어 프롬프트 재작성이나 국소적 이미지 편집을 통해 수정된다. [생성 이미지와 명세서 항목 → 비교 연산 → 통과/실패 판정 → 수정 대상 식별]
관련 Figure

사용자 프롬프트가 구조화된 명세로 분해되고, 검색/추론/수정 스킬이 유기적으로 결합되는 과정을 시각화했다. 특히 엔티티 검증이 선행되어야 제약 조건을 평가하는 EGIP의 논리 구조를 명확히 설명한다.
SCOPE 프레임워크의 전체 아키텍처와 Gen-Arena 평가 파이프라인을 보여주는 다이어그램이다.
주요 결과
Gen-Arena 벤치마크에서 SCOPE는 0.60 EGIP를 기록하며 Nano Banana Pro(0.21) 대비 약 3배 이상의 성능 향상을 보였다. 특히 스포츠와 의식(Ceremony) 카테고리처럼 복잡한 관계 묘사가 필요한 영역에서 압도적인 성능을 증명했다.
외부 벤치마크인 WISE-V에서는 0.907 WiScore를 기록하여 기존 SOTA 모델들을 제치고 1위를 차지했으며, MindBench에서도 0.61의 정확도로 Nano Banana Pro(0.41)를 크게 앞질렀다. 이는 SCOPE의 구조적 접근법이 일반적인 지식 집약적 생성 작업에도 효과적임을 나타낸다.
관련 Figure

복잡한 엔티티(Groal the Great)와 여러 제약 조건이 포함된 프롬프트에서 SCOPE만이 모든 요소를 정확히 구현했음을 보여준다. 다른 모델들은 엔티티 누락이나 관계 오류가 발생함을 확인할 수 있다.
SCOPE와 다른 최신 이미지 생성 모델들의 결과물을 비교한 정성적 분석 결과이다.
기술 상세
SCOPE의 핵심은 Conceptual Rift를 극복하기 위한 'Lifecycle Continuity' 확보에 있다. 이를 위해 고정된 파이프라인 대신 명세서(Specification)를 공유 인터페이스로 사용하는 에이전트 아키텍처를 채택했다. 각 스킬은 독립적으로 작동하지만 결과물은 항상 구조화된 명세에 기록되어 다음 단계의 컨텍스트로 활용된다.
평가 지표인 EGIP는 엔티티가 먼저 올바르게 생성되어야만 그에 종속된 제약 조건(속성, 관계, 레이아웃)의 성공을 인정하는 계층적 구조를 가진다. 이는 개별 요소의 정답률만 높고 전체적인 의도 구현은 실패하는 기존 지표의 맹점을 보완한다.
한계점
SCOPE는 다단계 추론과 검증, 수정을 거치기 때문에 단일 시도(One-shot) 생성 모델에 비해 추론 비용과 지연 시간이 높다. 또한 검증 단계에서 발생하는 오류(False Negative/Positive)가 전체 생성 주기에 영향을 미칠 수 있어 검증 모델의 신뢰도 확보가 필수적이다.
실무 활용
복잡한 시나리오나 특정 IP(지식재산권) 기반의 정밀한 이미지 생성이 필요한 실무 환경에서 즉시 활용 가능하다.
- 여러 캐릭터와 복잡한 배경 설정이 포함된 게임 컨셉 아트 생성
- 정확한 제품 배치와 텍스트 포함이 필수적인 광고 이미지 제작
- 역사적 사실이나 특정 지식이 정확하게 반영되어야 하는 교육용 삽화 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.